論文の概要: Transferring Inductive Biases through Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2006.00555v3
- Date: Sun, 4 Oct 2020 19:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:15:38.155648
- Title: Transferring Inductive Biases through Knowledge Distillation
- Title(参考訳): 知識蒸留による誘導バイアスの伝達
- Authors: Samira Abnar and Mostafa Dehghani and Willem Zuidema
- Abstract要約: 本研究では, あるモデルから別のモデルへの帰納バイアスの効果を伝達する知識蒸留の力について検討する。
モデルが収束する解に対する帰納バイアスの効果について検討し、帰納バイアスの効果が知識蒸留によってどの程度、どの程度の程度に伝達されるかを検討する。
- 参考スコア(独自算出の注目度): 21.219305008067735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having the right inductive biases can be crucial in many tasks or scenarios
where data or computing resources are a limiting factor, or where training data
is not perfectly representative of the conditions at test time. However,
defining, designing and efficiently adapting inductive biases is not
necessarily straightforward. In this paper, we explore the power of knowledge
distillation for transferring the effect of inductive biases from one model to
another. We consider families of models with different inductive biases, LSTMs
vs. Transformers and CNNs vs. MLPs, in the context of tasks and scenarios where
having the right inductive biases is critical. We study the effect of inductive
biases on the solutions the models converge to and investigate how and to what
extent the effect of inductive biases is transferred through knowledge
distillation, in terms of not only performance but also different aspects of
converged solutions.
- Abstract(参考訳): 適切なインダクティブバイアスを持つことは、データやコンピューティングリソースが制限要因であるタスクやシナリオ、あるいはトレーニングデータがテスト時の条件を完全に表現していない場合において極めて重要です。
しかし、帰納バイアスの定義、設計、効率的な適応は必ずしも単純ではない。
本稿では, あるモデルから別のモデルへ誘導バイアスの効果を伝達する知識蒸留の力について検討する。
我々は、正しい帰納バイアスを持つことが重要であるタスクやシナリオの文脈において、異なる帰納バイアスを持つモデルのファミリー、LSTM対トランスフォーマーとCNN対MLPを考察する。
本研究では, モデルが収束する解に対する帰納バイアスの効果について検討し, 帰納バイアスの効果が, 知識蒸留を通じてどの程度の程度に伝達されるかを, 収束解の性能だけでなく, 異なる側面の観点から検討する。
関連論文リスト
- Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and
Beyond [93.96982273042296]
視覚言語(VL)理解タスクは、複数の質問を通じて複雑な視覚シーンのモデルによる理解を評価する。
我々は、モデルが様々なVLタスクを適切に理解することなく正しく解決するために、ショートカットとして活用できる2つのデータセットバイアスを特定した。
本稿では,ADS(Adversarial Data Synthesis)を用いて,合成学習データと偏り評価データを生成する。
次に、サンプル内微分に着目して、合成したトレーニングデータ、特に対物データを利用するモデルを支援するために、サンプル内対物訓練(ICT)を導入する。
論文 参考訳(メタデータ) (2023-10-23T08:09:42Z) - Instilling Inductive Biases with Subnetworks [19.444844580405594]
サブタスク誘導は、サブタスクを利用したソリューションに対する誘導バイアスを注入する。
本稿では,Subtaskインダクションが,特定の一般化可能なソリューションを採用するために必要なトレーニングデータの量を大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-10-17T00:12:19Z) - Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [82.0937205795896]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文 参考訳(メタデータ) (2023-10-01T21:19:12Z) - Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression [6.508088032296086]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Equivariance and Invariance Inductive Bias for Learning from
Insufficient Data [65.42329520528223]
不十分なデータがモデルを、通常テストとは異なる限られたトレーニング環境にバイアスしやすくする理由が示されています。
従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。
論文 参考訳(メタデータ) (2022-07-25T15:26:19Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning [30.610670366488943]
データセットに誘導バイアスを符号化することでアーキテクチャ工学を置き換える。
推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。
LIMEで訓練されたモデルは、3つの非常に異なる大きな数学的推論ベンチマークでバニラトランスを大幅に上回る。
論文 参考訳(メタデータ) (2021-01-15T17:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。