論文の概要: Matrix Information Theory for Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2305.17326v6
- Date: Wed, 29 May 2024 09:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 02:31:12.092633
- Title: Matrix Information Theory for Self-Supervised Learning
- Title(参考訳): 自己教師付き学習のための行列情報理論
- Authors: Yifan Zhang, Zhiquan Tan, Jingqin Yang, Weiran Huang, Yang Yuan,
- Abstract要約: 本稿では,最大エントロピー符号化損失を行列均一性損失として解釈する新しい手法であるMatrix-SSLを紹介する。
実験の結果、Matrix-SSLはImageNetデータセットの最先端メソッドよりも優れています。
また,行列クロスエントロピー損失を用いた7Bモデルを微調整することにより,表現学習を言語モデリングシステムに導入する。
- 参考スコア(独自算出の注目度): 12.72620380763455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The maximum entropy encoding framework provides a unified perspective for many non-contrastive learning methods like SimSiam, Barlow Twins, and MEC. Inspired by this framework, we introduce Matrix-SSL, a novel approach that leverages matrix information theory to interpret the maximum entropy encoding loss as matrix uniformity loss. Furthermore, Matrix-SSL enhances the maximum entropy encoding method by seamlessly incorporating matrix alignment loss, directly aligning covariance matrices in different branches. Experimental results reveal that Matrix-SSL outperforms state-of-the-art methods on the ImageNet dataset under linear evaluation settings and on MS-COCO for transfer learning tasks. Specifically, when performing transfer learning tasks on MS-COCO, our method outperforms previous SOTA methods such as MoCo v2 and BYOL up to 3.3% with only 400 epochs compared to 800 epochs pre-training. We also try to introduce representation learning into the language modeling regime by fine-tuning a 7B model using matrix cross-entropy loss, with a margin of 3.1% on the GSM8K dataset over the standard cross-entropy loss. Code available at https://github.com/yifanzhang-pro/Matrix-SSL.
- Abstract(参考訳): 最大エントロピー符号化フレームワークは、SimSiam、Barlow Twins、MECといった多くの非コントラスト学習手法に対して統一的な視点を提供する。
このフレームワークに着想を得たMatrix-SSLは,行列情報理論を利用して最大エントロピー符号化損失を行列均一性損失として解釈する手法である。
さらに、Matrix-SSLは、行列アライメント損失をシームレスに取り込み、異なる分岐に共分散行列を直接アライメントすることで、最大エントロピー符号化法を強化する。
実験結果から, Matrix-SSLは, 線形評価条件下でのImageNetデータセットや, 伝達学習タスクのためのMS-COCO上で, 最先端の手法よりも優れていることがわかった。
具体的には,MS-COCO上で伝達学習を行う場合,MoCo v2やBYOLといった従来のSOTA手法よりも3.3%向上し,800エポックの事前学習に比べて400エポックに留まった。
また,行列クロスエントロピー損失を用いた7Bモデルを微調整し,標準クロスエントロピー損失に対するGSM8Kデータセットのマージンを3.1%とすることで,表現学習を言語モデリングシステムに導入する。
コードはhttps://github.com/yifanzhang-pro/Matrix-SSLで公開されている。
関連論文リスト
- Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Information Flow in Self-Supervised Learning [12.726203807634548]
本稿では,行列ベースのエントロピー推定を正規化器として活用し,U-MAEを特別に仮定する新しい手法であるマトリックス変量マスク付きオートエンコーダ(M-MAE)を紹介する。
実験による評価は、線形探傷型ViT-Baseの3.9%の改善、微調整型ViT-Largeの1%の改善など、最先端の手法と比較して、M-MAEの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-09-29T14:32:43Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Exact Decomposition of Joint Low Rankness and Local Smoothness Plus
Sparse Matrices [39.47324019377441]
3次元相関総変分正規化(略して3DCTV-RPCA)に基づく新しいRPCAモデルを提案する。
いくつかの軽微な仮定の下で、提案した3DCTV-RPCAモデルが両方のコンポーネントを正確に分解できることを示す。
論文 参考訳(メタデータ) (2022-01-29T13:58:03Z) - Learning a Compressive Sensing Matrix with Structural Constraints via
Maximum Mean Discrepancy Optimization [17.104994036477308]
本稿では,圧縮センシング関連回復問題に対する測定行列を得るための学習に基づくアルゴリズムを提案する。
ニューラルネットワーク関連のトピックにおけるこのようなメトリクスの最近の成功は、機械学習に基づく問題の解決策を動機付けている。
論文 参考訳(メタデータ) (2021-10-14T08:35:54Z) - Meta-learning for Matrix Factorization without Shared Rows or Columns [39.56814839510978]
提案手法は,行列を入力とするニューラルネットワークを用いて,行列の分解行列の事前分布を生成する。
ニューラルネットワークは、期待される計算誤差を最小限に抑えるようにメタ学習される。
3つのユーザ・イテム評価データセットを用いた実験により,提案手法は未知の行列における限られた数の観測結果から,欠落した値をインプットできることを示した。
論文 参考訳(メタデータ) (2021-06-29T07:40:20Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。