論文の概要: Transferring Inductive Biases through Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2006.00555v3
- Date: Sun, 4 Oct 2020 19:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:15:38.155648
- Title: Transferring Inductive Biases through Knowledge Distillation
- Title(参考訳): 知識蒸留による誘導バイアスの伝達
- Authors: Samira Abnar and Mostafa Dehghani and Willem Zuidema
- Abstract要約: 本研究では, あるモデルから別のモデルへの帰納バイアスの効果を伝達する知識蒸留の力について検討する。
モデルが収束する解に対する帰納バイアスの効果について検討し、帰納バイアスの効果が知識蒸留によってどの程度、どの程度の程度に伝達されるかを検討する。
- 参考スコア(独自算出の注目度): 21.219305008067735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having the right inductive biases can be crucial in many tasks or scenarios
where data or computing resources are a limiting factor, or where training data
is not perfectly representative of the conditions at test time. However,
defining, designing and efficiently adapting inductive biases is not
necessarily straightforward. In this paper, we explore the power of knowledge
distillation for transferring the effect of inductive biases from one model to
another. We consider families of models with different inductive biases, LSTMs
vs. Transformers and CNNs vs. MLPs, in the context of tasks and scenarios where
having the right inductive biases is critical. We study the effect of inductive
biases on the solutions the models converge to and investigate how and to what
extent the effect of inductive biases is transferred through knowledge
distillation, in terms of not only performance but also different aspects of
converged solutions.
- Abstract(参考訳): 適切なインダクティブバイアスを持つことは、データやコンピューティングリソースが制限要因であるタスクやシナリオ、あるいはトレーニングデータがテスト時の条件を完全に表現していない場合において極めて重要です。
しかし、帰納バイアスの定義、設計、効率的な適応は必ずしも単純ではない。
本稿では, あるモデルから別のモデルへ誘導バイアスの効果を伝達する知識蒸留の力について検討する。
我々は、正しい帰納バイアスを持つことが重要であるタスクやシナリオの文脈において、異なる帰納バイアスを持つモデルのファミリー、LSTM対トランスフォーマーとCNN対MLPを考察する。
本研究では, モデルが収束する解に対する帰納バイアスの効果について検討し, 帰納バイアスの効果が, 知識蒸留を通じてどの程度の程度に伝達されるかを, 収束解の性能だけでなく, 異なる側面の観点から検討する。
関連論文リスト
- MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文 参考訳(メタデータ) (2024-10-12T14:12:36Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Towards Exact Computation of Inductive Bias [8.988109761916379]
本稿では,タスクの一般化に必要な帰納バイアスを効率的に計算する手法を提案する。
より高次元的なタスクはより帰納的バイアスを必要とすることを示す。
提案した帰納バイアス指標は,特定のモデルアーキテクチャの利点を情報理論で解釈する。
論文 参考訳(メタデータ) (2024-06-22T21:14:24Z) - Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning [52.70210390424605]
本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-16T04:52:41Z) - Instilling Inductive Biases with Subnetworks [19.444844580405594]
サブタスク誘導は、サブタスクを利用したソリューションに対する誘導バイアスを注入する。
本稿では,Subtaskインダクションが,特定の一般化可能なソリューションを採用するために必要なトレーニングデータの量を大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-10-17T00:12:19Z) - SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文 参考訳(メタデータ) (2023-10-01T21:19:12Z) - Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression [6.508088032296086]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z) - Equivariance and Invariance Inductive Bias for Learning from
Insufficient Data [65.42329520528223]
不十分なデータがモデルを、通常テストとは異なる限られたトレーニング環境にバイアスしやすくする理由が示されています。
従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。
論文 参考訳(メタデータ) (2022-07-25T15:26:19Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning [30.610670366488943]
データセットに誘導バイアスを符号化することでアーキテクチャ工学を置き換える。
推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。
LIMEで訓練されたモデルは、3つの非常に異なる大きな数学的推論ベンチマークでバニラトランスを大幅に上回る。
論文 参考訳(メタデータ) (2021-01-15T17:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。