Fugu-MT 論文翻訳(概要): Transferring Inductive Biases through Knowledge Distillation

論文の概要: Transferring Inductive Biases through Knowledge Distillation

arxiv url: http://arxiv.org/abs/2006.00555v3
Date: Sun, 4 Oct 2020 19:57:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 12:15:38.155648
Title: Transferring Inductive Biases through Knowledge Distillation
Title（参考訳）: 知識蒸留による誘導バイアスの伝達
Authors: Samira Abnar and Mostafa Dehghani and Willem Zuidema
Abstract要約: 本研究では, あるモデルから別のモデルへの帰納バイアスの効果を伝達する知識蒸留の力について検討する。モデルが収束する解に対する帰納バイアスの効果について検討し、帰納バイアスの効果が知識蒸留によってどの程度、どの程度の程度に伝達されるかを検討する。
参考スコア（独自算出の注目度）: 21.219305008067735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Having the right inductive biases can be crucial in many tasks or scenarios where data or computing resources are a limiting factor, or where training data is not perfectly representative of the conditions at test time. However, defining, designing and efficiently adapting inductive biases is not necessarily straightforward. In this paper, we explore the power of knowledge distillation for transferring the effect of inductive biases from one model to another. We consider families of models with different inductive biases, LSTMs vs. Transformers and CNNs vs. MLPs, in the context of tasks and scenarios where having the right inductive biases is critical. We study the effect of inductive biases on the solutions the models converge to and investigate how and to what extent the effect of inductive biases is transferred through knowledge distillation, in terms of not only performance but also different aspects of converged solutions.
Abstract（参考訳）: 適切なインダクティブバイアスを持つことは、データやコンピューティングリソースが制限要因であるタスクやシナリオ、あるいはトレーニングデータがテスト時の条件を完全に表現していない場合において極めて重要です。しかし、帰納バイアスの定義、設計、効率的な適応は必ずしも単純ではない。本稿では, あるモデルから別のモデルへ誘導バイアスの効果を伝達する知識蒸留の力について検討する。我々は、正しい帰納バイアスを持つことが重要であるタスクやシナリオの文脈において、異なる帰納バイアスを持つモデルのファミリー、LSTM対トランスフォーマーとCNN対MLPを考察する。本研究では, モデルが収束する解に対する帰納バイアスの効果について検討し, 帰納バイアスの効果が, 知識蒸留を通じてどの程度の程度に伝達されるかを, 収束解の性能だけでなく, 異なる側面の観点から検討する。

関連論文リスト

Disentangling Granularity: An Implicit Inductive Bias in Factorized VAEs [4.987314374901578]
本研究では, 因数分解前の変分自己エンコーダ (VAE) の非絡み合いを誘導する暗黙的帰納バイアスについて検討した。因子化VAEにおける暗黙的帰納バイアスとしての異方性粒度は、異方性性能とエビデンス・ロウアー・バウンド(ELBO)の推論の両方に影響を及ぼすことを示した。その結果, 因子化VAEにおける暗黙的誘導バイアスとしての粒状化が, ELBOの解離性能と推定に影響を及ぼし, VAEの解釈可能性や固有バイアスに関する新たな知見が得られた。
論文参考訳（メタデータ） (2025-05-30T15:08:50Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文参考訳（メタデータ） (2024-10-12T14:12:36Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Towards Exact Computation of Inductive Bias [8.988109761916379]
本稿では,タスクの一般化に必要な帰納バイアスを効率的に計算する手法を提案する。より高次元的なタスクはより帰納的バイアスを必要とすることを示す。提案した帰納バイアス指標は,特定のモデルアーキテクチャの利点を情報理論で解釈する。
論文参考訳（メタデータ） (2024-06-22T21:14:24Z)
Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning [52.70210390424605]
本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-16T04:52:41Z)
Instilling Inductive Biases with Subnetworks [19.444844580405594]
サブタスク誘導は、サブタスクを利用したソリューションに対する誘導バイアスを注入する。本稿では,Subtaskインダクションが,特定の一般化可能なソリューションを採用するために必要なトレーニングデータの量を大幅に削減することを示す。
論文参考訳（メタデータ） (2023-10-17T00:12:19Z)
SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文参考訳（メタデータ） (2023-10-01T21:19:12Z)
Distilling Inductive Bias: Knowledge Distillation Beyond Model Compression [6.508088032296086]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文参考訳（メタデータ） (2023-09-30T13:21:29Z)
Equivariance and Invariance Inductive Bias for Learning from Insufficient Data [65.42329520528223]
不十分なデータがモデルを、通常テストとは異なる限られたトレーニング環境にバイアスしやすくする理由が示されています。従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。
論文参考訳（メタデータ） (2022-07-25T15:26:19Z)
Agree to Disagree: Diversity through Disagreement for Better Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文参考訳（メタデータ） (2022-02-09T12:03:02Z)
Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文参考訳（メタデータ） (2021-05-12T12:12:24Z)
LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning [30.610670366488943]
データセットに誘導バイアスを符号化することでアーキテクチャ工学を置き換える。推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。 LIMEで訓練されたモデルは、3つの非常に異なる大きな数学的推論ベンチマークでバニラトランスを大幅に上回る。
論文参考訳（メタデータ） (2021-01-15T17:15:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。