論文の概要: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation
- arxiv url: http://arxiv.org/abs/2310.00796v2
- Date: Fri, 16 Feb 2024 16:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:18:32.617088
- Title: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation
- Title(参考訳): シミュレーションによるseq2seqモデルへの構造インダクティブバイアスの注入
- Authors: Matthias Lindemann and Alexander Koller and Ivan Titov
- Abstract要約: 本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
- 参考スコア(独自算出の注目度): 82.0937205795896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Strong inductive biases enable learning from little data and help
generalization outside of the training distribution. Popular neural
architectures such as Transformers lack strong structural inductive biases for
seq2seq NLP tasks on their own. Consequently, they struggle with systematic
generalization beyond the training distribution, e.g. with extrapolating to
longer inputs, even when pre-trained on large amounts of text. We show how a
structural inductive bias can be efficiently injected into a seq2seq model by
pre-training it to simulate structural transformations on synthetic data.
Specifically, we inject an inductive bias towards Finite State Transducers
(FSTs) into a Transformer by pre-training it to simulate FSTs given their
descriptions. Our experiments show that our method imparts the desired
inductive bias, resulting in improved systematic generalization and better
few-shot learning for FST-like tasks. Our analysis shows that fine-tuned models
accurately capture the state dynamics of the unseen underlying FSTs, suggesting
that the simulation process is internalized by the fine-tuned model.
- Abstract(参考訳): 強い帰納バイアスは、小さなデータから学習し、トレーニング分布外の一般化を支援する。
Transformersのような一般的なニューラルアーキテクチャは、Seq2seq NLPタスクの強い構造的帰納バイアスを独自に欠いている。
そのため、大量のテキストを事前学習した場合でも、トレーニング分布を超えた体系的な一般化、例えば、長い入力への外挿に苦労する。
合成データ上での構造変換をシミュレーションするために事前学習することにより,構造インダクティブバイアスをseq2seqモデルに効率的に注入する方法を示す。
具体的には,有限状態トランスデューサ(FST)に対する帰納バイアスを予め学習して,FSTをシミュレートすることでトランスフォーマに注入する。
実験により,提案手法が所望の帰納バイアスを与え,系統的一般化とfstライクなタスクに対するマイナショット学習の改善を実現した。
解析の結果, 微調整されたモデルが未知のfstの状態ダイナミクスを正確に捉え, シミュレーションプロセスが微調整モデルによって内部化されていることが示唆された。
関連論文リスト
- Learning and Transferring Sparse Contextual Bigrams with Linear Transformers [47.37256334633102]
スパース・コン・ビグラム(Sparse Con Bigram)モデルを導入し、次のトークンの生成は、最後のトークンによって決定される以前の位置のスパースセットに依存する。
勾配アルゴリズムを用いた一層線形変圧器を用いて,SCB学習のトレーニングダイナミクスとサンプル複雑性を解析した。
下流と事前学習タスクの間に非自明な相関関係があることを証明し、事前訓練されたモデルから微調整することで、初期サンプル集約段階を回避できることを証明した。
論文 参考訳(メタデータ) (2024-10-30T20:29:10Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。