論文の概要: Projection Head is Secretly an Information Bottleneck
- arxiv url: http://arxiv.org/abs/2503.00507v2
- Date: Tue, 04 Mar 2025 04:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:20.928384
- Title: Projection Head is Secretly an Information Bottleneck
- Title(参考訳): プロジェクションヘッドは、秘密裏にインフォメーション・ボトルネック
- Authors: Zhuo Ouyang, Kaiwen Hu, Qi Zhang, Yifei Wang, Yisen Wang,
- Abstract要約: 我々は情報理論の観点から、投射頭部の深い理論的理解を発展させる。
プロジェクタより前の特徴の下流性能に関する理論的保証を確立することにより、有効なプロジェクタが情報ボトルネックとして機能することを明らかにする。
提案手法は,様々な実世界のデータセットにおいて,ダウンストリーム性能が一貫した改善を示す。
- 参考スコア(独自算出の注目度): 33.755883011145755
- License:
- Abstract: Recently, contrastive learning has risen to be a promising paradigm for extracting meaningful data representations. Among various special designs, adding a projection head on top of the encoder during training and removing it for downstream tasks has proven to significantly enhance the performance of contrastive learning. However, despite its empirical success, the underlying mechanism of the projection head remains under-explored. In this paper, we develop an in-depth theoretical understanding of the projection head from the information-theoretic perspective. By establishing the theoretical guarantees on the downstream performance of the features before the projector, we reveal that an effective projector should act as an information bottleneck, filtering out the information irrelevant to the contrastive objective. Based on theoretical insights, we introduce modifications to projectors with training and structural regularizations. Empirically, our methods exhibit consistent improvement in the downstream performance across various real-world datasets, including CIFAR-10, CIFAR-100, and ImageNet-100. We believe our theoretical understanding on the role of the projection head will inspire more principled and advanced designs in this field. Code is available at https://github.com/PKU-ML/Projector_Theory.
- Abstract(参考訳): 近年、コントラスト学習は有意義なデータ表現を抽出する上で有望なパラダイムとなっている。
様々な特殊設計の中で、訓練中にエンコーダの上にプロジェクションヘッドを追加し、下流タスクに削除することは、対照的な学習性能を大幅に向上させることが証明された。
しかし、実験的な成功にもかかわらず、投射頭部の基盤となるメカニズムは未解明のままである。
本稿では,情報理論の観点から,プロジェクションヘッドの深い理論的理解を開発する。
プロジェクタより前の特徴の下流性能に関する理論的保証を確立することにより、有効なプロジェクタが情報ボトルネックとして機能し、対照的な目的に関係のない情報をフィルタリングすることを明らかにする。
理論的な洞察に基づいて、我々はプロジェクターにトレーニングと構造的正規化を施した修正を導入する。
実験により,CIFAR-10,CIFAR-100,ImageNet-100など,さまざまな実世界のデータセットのダウンストリーム性能が一貫した向上を示した。
我々は、プロジェクションヘッドの役割に関する理論的理解が、この分野におけるより原理的で先進的な設計に刺激を与えると信じている。
コードはhttps://github.com/PKU-ML/Projector_Theory.comから入手できる。
関連論文リスト
- Investigating the Benefits of Projection Head for Representation Learning [11.20245728716827]
高品質な表現を得るための効果的なテクニックは、トレーニング中にエンコーダの上にプロジェクションヘッドを追加し、それを破棄し、プリプロジェクション表現を使用することである。
プロジェクション前表現は損失関数によって直接最適化されていない。
トレーニングアルゴリズムの暗黙のバイアスは、階層的にプログレッシブな機能の重み付けにつながり、レイヤーに深く入り込むにつれて、機能がますます不平等になることを示している。
論文 参考訳(メタデータ) (2024-03-18T00:48:58Z) - Understanding the Effects of Projectors in Knowledge Distillation [31.882356225974632]
学生と教師が同じ特徴次元を持つ場合でも、プロジェクターを追加することで蒸留性能が向上する。
本稿では、プロジェクターが果たす暗黙の役割について検討するが、これまで見過ごされてきた。
プロジェクターの正の効果に感化されて, プロジェクターアンサンブルを用いた特徴蒸留法を提案し, 蒸留性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-26T06:30:39Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Unraveling Projection Heads in Contrastive Learning: Insights from
Expansion and Shrinkage [9.540723320001621]
本研究の目的は、プロジェクターで学習した表現が、その後に学習した表現よりも優れる観察現象をデミスティフィケートすることである。
我々は、プロジェクターに対する対照的な損失によって引き起こされる2つの重要な効果(膨張と収縮)を同定する。
本稿では,プロジェクタの挙動を正確にモデル化する線形プロジェクタ群を提案する。
論文 参考訳(メタデータ) (2023-06-06T01:13:18Z) - Understanding the Role of the Projector in Knowledge Distillation [22.698845243751293]
機能マッチングとメートル法学習問題としての知識蒸留の有効性を再考する。
我々は3つの重要な設計決定、すなわち正規化、ソフト最大関数、投影層を検証する。
ImageNetのDeiT-Tiで、77.2%のトップ1の精度を実現しました。
論文 参考訳(メタデータ) (2023-03-20T13:33:31Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Toward a Geometrical Understanding of Self-supervised Contrastive
Learning [55.83778629498769]
自己教師付き学習(SSL)は、人間のアノテーションがなければ、伝達学習に有効なデータ表現を作成するための最重要技術の一つである。
メインストリームSSL技術は、エンコーダとプロジェクタという2つのカスケードニューラルネットワークを備えた、特定のディープニューラルネットワークアーキテクチャに依存している。
本稿では,データ拡張ポリシーの強みがデータ埋め込みに与える影響について検討する。
論文 参考訳(メタデータ) (2022-05-13T23:24:48Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。