論文の概要: Information Theoretic Representation Distillation
- arxiv url: http://arxiv.org/abs/2112.00459v1
- Date: Wed, 1 Dec 2021 12:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:32:10.375589
- Title: Information Theoretic Representation Distillation
- Title(参考訳): 情報理論表現蒸留
- Authors: Roy Miles, Adri\'an L\'opez Rodr\'iguez, Krystian Mikolajczyk
- Abstract要約: 情報理論と知識蒸留の代替関係を,最近提案したエントロピー様関数を用いて構築する。
本手法は,知識蒸留とクロスモデル伝達タスクの最先端技術に対する競争性能を実現する。
バイナリ量子化のための新しい最先端技術に光を当てた。
- 参考スコア(独自算出の注目度): 20.802135299032308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the empirical success of knowledge distillation, there still lacks a
theoretical foundation that can naturally lead to computationally inexpensive
implementations. To address this concern, we forge an alternative connection
between information theory and knowledge distillation using a recently proposed
entropy-like functional. In doing so, we introduce two distinct complementary
losses which aim to maximise the correlation and mutual information between the
student and teacher representations. Our method achieves competitive
performance to state-of-the-art on the knowledge distillation and cross-model
transfer tasks, while incurring significantly less training overheads than
closely related and similarly performing approaches. We further demonstrate the
effectiveness of our method on a binary distillation task, whereby we shed
light to a new state-of-the-art for binary quantisation. The code, evaluation
protocols, and trained models will be publicly available.
- Abstract(参考訳): 知識蒸留の実証的な成功にもかかわらず、計算的に安価な実装につながる理論的な基礎はいまだに欠けている。
この懸念に対処するために,最近提案されているエントロピー的機能を用いて,情報理論と知識蒸留の新たな関係を創る。
そこで我々は,学生と教師の表現の相関と相互情報の最大化を目的とした2つの相補的損失を導入する。
本手法は, 知識蒸留およびクロスモデル伝達タスクにおける最先端技術に対する競争性能を向上すると同時に, 密接な関係と類似した手法よりも, トレーニングオーバーヘッドを著しく低減する。
さらに,二元蒸留タスクにおける本手法の有効性を実証し,二元量子化のための新たな最新技術に光を当てた。
コード、評価プロトコル、トレーニングされたモデルが公開される予定だ。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Knowledge Distillation via Token-level Relationship Graph [12.356770685214498]
token-level Relation Graph (TRG) を用いた知識蒸留法を提案する。
TRGを利用することで、教師モデルから高レベルの意味情報を効果的にエミュレートすることができる。
我々は,提案手法の有効性を,いくつかの最先端手法に対して評価する実験を行った。
論文 参考訳(メタデータ) (2023-06-20T08:16:37Z) - Towards a Unified View of Affinity-Based Knowledge Distillation [5.482532589225552]
我々は知識蒸留を3つの構成要素、すなわち親和性、正規化、損失の枠組みにモジュール化する。
我々は, 単純さにもかかわらず, 関係性に基づく知識蒸留が, 最先端技術に匹敵する性能を達成できることを示す。
論文 参考訳(メタデータ) (2022-09-30T16:12:25Z) - PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense
Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。
本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。
MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-08-13T02:07:43Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - On the Orthogonality of Knowledge Distillation with Other Techniques:
From an Ensemble Perspective [34.494730096460636]
知識蒸留は,効率的なニューラルネットワークを実用化するための強力な装置であることを示す。
また,知識蒸留を他の手法と効果的に統合する方法についても紹介する。
論文 参考訳(メタデータ) (2020-09-09T06:14:59Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。