論文の概要: How Capable Can a Transformer Become? A Study on Synthetic,
Interpretable Tasks
- arxiv url: http://arxiv.org/abs/2311.12997v1
- Date: Tue, 21 Nov 2023 21:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 16:55:57.978843
- Title: How Capable Can a Transformer Become? A Study on Synthetic,
Interpretable Tasks
- Title(参考訳): トランスフォーマーはどこまで使えるのか?
合成・解釈可能な課題に関する研究
- Authors: Rahul Ramesh, Mikail Khona, Robert P. Dick, Hidenori Tanaka, Ekdeep
Singh Lubana
- Abstract要約: 我々は、よく定義されたモノリシックな機能の集合を構成するデータ生成プロセスで自動回帰トランスフォーマーモデルを訓練する。
このデータ生成プロセスに関する広範囲かつ体系的な実験を通じて、自己回帰変換器は指数関数的あるいは多くの関数に一般化することを学ぶことができることを示す。
- 参考スコア(独自算出の注目度): 23.516986266146862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers trained on huge text corpora exhibit a remarkable set of
capabilities, e.g., performing simple logical operations. Given the inherent
compositional nature of language, one can expect the model to learn to compose
these capabilities, potentially yielding a combinatorial explosion of what
operations it can perform on an input. Motivated by the above, we aim to assess
in this paper "how capable can a transformer become?". Specifically, we train
autoregressive Transformer models on a data-generating process that involves
compositions of a set of well-defined monolithic capabilities. Through a series
of extensive and systematic experiments on this data-generating process, we
show that: (1) autoregressive Transformers can learn compositional structures
from the training data and generalize to exponentially or even combinatorially
many functions; (2) composing functions by generating intermediate outputs is
more effective at generalizing to unseen compositions, compared to generating
no intermediate outputs; (3) the training data has a significant impact on the
model's ability to compose unseen combinations of functions; and (4) the
attention layers in the latter half of the model are critical to
compositionality.
- Abstract(参考訳): 巨大なテキストコーパスで訓練されたトランスフォーマーは、例えば単純な論理演算を実行するなど、顕著な機能のセットを示す。
言語の固有の構成的性質を考えると、モデルがこれらの機能を構成することを学び、入力でどのような操作を実行できるかの組み合わせ的な爆発をもたらすことを期待できる。
以上のことを動機として、「トランスフォーマーがいかに有能になるか」を本論文で評価することを目指している。
具体的には,高度に定義されたモノリシックな機能の集合を構成するデータ生成プロセス上で,自己回帰的トランスフォーマーモデルをトレーニングする。
Through a series of extensive and systematic experiments on this data-generating process, we show that: (1) autoregressive Transformers can learn compositional structures from the training data and generalize to exponentially or even combinatorially many functions; (2) composing functions by generating intermediate outputs is more effective at generalizing to unseen compositions, compared to generating no intermediate outputs; (3) the training data has a significant impact on the model's ability to compose unseen combinations of functions; and (4) the attention layers in the latter half of the model are critical to compositionality.
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:41:08Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Set Interdependence Transformer: Set-to-Sequence Neural Networks for
Permutation Learning and Structure Prediction [6.396288020763144]
セット・ツー・シーケンス問題は自然言語処理、コンピュータビジョン、構造予測において発生する。
それまでの注意に基づく手法では、n$-次関係を明示的に表すために、セット変換の$n$層を必要とする。
本稿では,集合の置換不変表現を任意の濃度の集合内のその要素に関連付けることのできる,集合間距離変換器と呼ばれる新しいニューラルセット符号化法を提案する。
論文 参考訳(メタデータ) (2022-06-08T07:46:49Z) - Compositional Generalization and Decomposition in Neural Program
Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。
まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。
2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文 参考訳(メタデータ) (2022-04-07T22:16:05Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。