論文の概要: Compositional Capabilities of Autoregressive Transformers: A Study on
Synthetic, Interpretable Tasks
- arxiv url: http://arxiv.org/abs/2311.12997v2
- Date: Mon, 5 Feb 2024 23:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:52:24.335864
- Title: Compositional Capabilities of Autoregressive Transformers: A Study on
Synthetic, Interpretable Tasks
- Title(参考訳): 自己回帰変換器の構成能力:合成・解釈可能な課題に関する研究
- Authors: Rahul Ramesh, Ekdeep Singh Lubana, Mikail Khona, Robert P. Dick,
Hidenori Tanaka
- Abstract要約: 我々は合成データ生成プロセスで自己回帰変換器モデルを訓練する。
自己回帰変換器は少量のトレーニングデータから構成構造を学習できることを示す。
- 参考スコア(独自算出の注目度): 23.516986266146855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers trained on huge text corpora exhibit a remarkable set of
capabilities, e.g., performing basic arithmetic. Given the inherent
compositional nature of language, one can expect the model to learn to compose
these capabilities, potentially yielding a combinatorial explosion of what
operations it can perform on an input. Motivated by the above, we train
autoregressive Transformer models on a synthetic data-generating process that
involves compositions of a set of well-defined monolithic capabilities. Through
a series of extensive and systematic experiments on this data-generating
process, we show that: (1) autoregressive Transformers can learn compositional
structures from small amounts of training data and generalize to exponentially
or even combinatorially many functions; (2) generating intermediate outputs
when composing functions is more effective for generalizing to new, unseen
compositions than not generating any intermediate outputs (3) biases in the
order of the compositions in the training data result in Transformers that fail
to compose some combinations of functions; and (4) the attention layers select
which capability to apply while the feed-forward layers execute the selected
capability.
- Abstract(参考訳): 巨大なテキストコーパスでトレーニングされたトランスフォーマーは、基本的な演算を実行するなど、驚くべき能力セットを示している。
言語の固有の構成的性質を考えると、モデルがこれらの機能を構成することを学び、入力でどのような操作を実行できるかの組み合わせ的な爆発をもたらすことを期待できる。
そこで本研究では, 自己回帰的トランスフォーマーモデルを合成データ生成プロセス上で訓練し, 高度に定義されたモノリシックな機能の集合を合成する。
Through a series of extensive and systematic experiments on this data-generating process, we show that: (1) autoregressive Transformers can learn compositional structures from small amounts of training data and generalize to exponentially or even combinatorially many functions; (2) generating intermediate outputs when composing functions is more effective for generalizing to new, unseen compositions than not generating any intermediate outputs (3) biases in the order of the compositions in the training data result in Transformers that fail to compose some combinations of functions; and (4) the attention layers select which capability to apply while the feed-forward layers execute the selected capability.
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:41:08Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Set Interdependence Transformer: Set-to-Sequence Neural Networks for
Permutation Learning and Structure Prediction [6.396288020763144]
セット・ツー・シーケンス問題は自然言語処理、コンピュータビジョン、構造予測において発生する。
それまでの注意に基づく手法では、n$-次関係を明示的に表すために、セット変換の$n$層を必要とする。
本稿では,集合の置換不変表現を任意の濃度の集合内のその要素に関連付けることのできる,集合間距離変換器と呼ばれる新しいニューラルセット符号化法を提案する。
論文 参考訳(メタデータ) (2022-06-08T07:46:49Z) - Compositional Generalization and Decomposition in Neural Program
Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。
まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。
2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文 参考訳(メタデータ) (2022-04-07T22:16:05Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。