論文の概要: How Far Can Transformers Reason? The Globality Barrier and Inductive Scratchpad
- arxiv url: http://arxiv.org/abs/2406.06467v2
- Date: Tue, 08 Oct 2024 17:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:37.841013
- Title: How Far Can Transformers Reason? The Globality Barrier and Inductive Scratchpad
- Title(参考訳): トランスフォーマーはどの程度の理由があるのか? グローバルシティバリアとインダクティブスクラッチパッド
- Authors: Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Colin Sandon, Omid Saremi,
- Abstract要約: 近年の研究では、トランスフォーマーは表現性の観点からチューリング完全であることが示されているが、これは学習可能性の目的に対処するものではない。
本稿では,正規変換器が学習の弱さを効果的に達成できる場合,目標分布の「グローバル度」の概念を推し進める。
- 参考スコア(独自算出の注目度): 23.410228115201285
- License:
- Abstract: Can Transformers predict new syllogisms by composing established ones? More generally, what type of targets can be learned by such models from scratch? Recent works show that Transformers can be Turing-complete in terms of expressivity, but this does not address the learnability objective. This paper puts forward the notion of 'globality degree' of a target distribution to capture when weak learning is efficiently achievable by regular Transformers, where the latter measures the least number of tokens required in addition to the tokens histogram to correlate nontrivially with the target. As shown experimentally and theoretically under additional assumptions, distributions with high globality cannot be learned efficiently. In particular, syllogisms cannot be composed on long chains. Furthermore, we show that (i) an agnostic scratchpad cannot help to break the globality barrier, (ii) an educated scratchpad can help if it breaks the globality at each step, however not all such scratchpads can generalize to out-of-distribution (OOD) samples, (iii) a notion of 'inductive scratchpad', that composes the prior information more efficiently, can both break the globality barrier and improve the OOD generalization. In particular, some inductive scratchpads can achieve length generalizations of up to 6x for some arithmetic tasks depending on the input formatting.
- Abstract(参考訳): トランスフォーマーは、確立したシロジズムを構成することによって、新しいシロジズムを予測することができるか?
より一般的に、そのようなモデルによって、どのようなターゲットをスクラッチから学べるか?
近年の研究では、トランスフォーマーは表現性の観点からチューリング完全であることが示されているが、これは学習可能性の目的に対処するものではない。
本稿では, 正規変圧器が学習の弱さを効率的に達成できる場合, 目標分布の「グローバル度」の概念を提案し, トークンヒストグラムに加えて, トークンの最小数を計測して, 目標と非自明な相関関係を図っている。
追加の仮定の下で実験的に理論的に示されるように、高い大域性を持つ分布は効率的には学べない。
特に、シロジズムは長い鎖では構成できない。
さらには
(i)無知のスクラッチパッドは、グローバル性障壁を破るのに役立ちません。
(ii) 教育を受けたスクラッチパッドは、各ステップでグローバル性を損なうのに役立つが、そのようなスクラッチパッドはすべて、アウト・オブ・ディストリビューション(OOD)サンプルに一般化できるわけではない。
三 先行情報をより効率的に構成する「誘導スクラッチパッド」の概念は、グローバル性障壁を破り、OOD一般化を改善することができる。
特に、いくつかのインダクティブスクラッチパッドは、入力フォーマットによっては最大6倍の長さの演算タスクを一般化することができる。
関連論文リスト
- Unleash the Power of Local Representations for Few-Shot Classification [6.722306005855269]
訓練中に目に見えない新しいクラスに一般化することは、数発の分類において重要な課題である。
最近の計量法は局所的な表現によってこの問題に対処しようとする。
本研究では,局所表現の力を解き放ち,新しいクラスを一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T05:51:04Z) - Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。
我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。
トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文 参考訳(メタデータ) (2024-05-23T21:42:19Z) - How Transformers Learn Causal Structure with Gradient Descent [49.808194368781095]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - Analyzing Transformer Dynamics as Movement through Embedding Space [0.0]
本稿では,トランスフォーマーをベースとした言語モデルが,自然言語理解などの知的行動を示す方法について考察する。
埋め込み空間を通した動きとしてフレーミングトランスフォーマーダイナミクスを提案する。
論文 参考訳(メタデータ) (2023-08-21T17:21:23Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Diagnosing Transformers in Task-Oriented Semantic Parsing [3.5788754401889022]
本稿では,BARTとXLM-Rの2つの意味解析手法について検討する。
トランスフォーマーベースは、意図やスロットの曖昧さに苦しむが、驚くべきことに、構文的に有能なフレームの生成にも苦労する。
トランスフォーマーベースのスパンは、フレームが正しいか間違っているかを示す十分な指標を提供するので、プロダクション環境でのデプロイが容易になります。
論文 参考訳(メタデータ) (2021-05-27T23:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。