論文の概要: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation
- arxiv url: http://arxiv.org/abs/2310.00796v1
- Date: Sun, 1 Oct 2023 21:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:47:50.712770
- Title: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation
- Title(参考訳): シミュレーションによるseq2seqモデルへの構造インダクティブバイアスの注入
- Authors: Matthias Lindemann and Alexander Koller and Ivan Titov
- Abstract要約: 構造的帰納バイアスがセq2seqモデルにどのように注入されるかを示す。
具体的には,有限状態トランスデューサ(FST)に対する帰納バイアスを予め学習して,FSTをシミュレートすることでトランスフォーマに注入する。
- 参考スコア(独自算出の注目度): 82.0937205795896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Strong inductive biases enable learning from little data and help
generalization outside of the training distribution. Popular neural
architectures such as Transformers lack strong structural inductive biases for
seq2seq NLP tasks on their own. Consequently, they struggle with systematic
generalization beyond the training distribution, e.g. with extrapolating to
longer inputs, even when pre-trained on large amounts of text. We show how a
structural inductive bias can be injected into a seq2seq model by pre-training
it to simulate structural transformations on synthetic data. Specifically, we
inject an inductive bias towards Finite State Transducers (FSTs) into a
Transformer by pre-training it to simulate FSTs given their descriptions. Our
experiments show that our method imparts the desired inductive bias, resulting
in improved systematic generalization and better few-shot learning for FST-like
tasks.
- Abstract(参考訳): 強い帰納バイアスは、小さなデータから学習し、トレーニング分布外の一般化を支援する。
Transformersのような一般的なニューラルアーキテクチャは、Seq2seq NLPタスクの強い構造的帰納バイアスを独自に欠いている。
そのため、大量のテキストを事前学習した場合でも、トレーニング分布を超えた体系的な一般化、例えば、長い入力への外挿に苦労する。
構造インダクティブバイアスをseq2seqモデルにインジェクトする方法を,合成データ上での構造変換をシミュレートするために事前学習することによって示す。
具体的には,有限状態トランスデューサ(FST)に対する帰納バイアスを予め学習して,FSTをシミュレートすることでトランスフォーマに注入する。
実験により,提案手法が所望の帰納バイアスを与え,系統的一般化とfstライクなタスクに対するマイナショット学習の改善を実現した。
関連論文リスト
- Learning and Transferring Sparse Contextual Bigrams with Linear Transformers [47.37256334633102]
スパース・コン・ビグラム(Sparse Con Bigram)モデルを導入し、次のトークンの生成は、最後のトークンによって決定される以前の位置のスパースセットに依存する。
勾配アルゴリズムを用いた一層線形変圧器を用いて,SCB学習のトレーニングダイナミクスとサンプル複雑性を解析した。
下流と事前学習タスクの間に非自明な相関関係があることを証明し、事前訓練されたモデルから微調整することで、初期サンプル集約段階を回避できることを証明した。
論文 参考訳(メタデータ) (2024-10-30T20:29:10Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。