論文の概要: How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad
- arxiv url: http://arxiv.org/abs/2406.06467v1
- Date: Mon, 10 Jun 2024 17:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:49:35.613179
- Title: How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad
- Title(参考訳): 変圧器はどこまで原因があるのか? : 局所バリアとインダクティブスクラッチパッド
- Authors: Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Colin Sandon, Omid Saremi,
- Abstract要約: 近年の研究では、トランスフォーマーは表現性の観点からチューリング完全であることが示されているが、これは学習可能性の目的に対処するものではない。
本稿では,弱い学習が正規変換器で効率的に達成可能な場合の「分布局所性」の概念を提唱する。
- 参考スコア(独自算出の注目度): 23.410228115201285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can Transformers predict new syllogisms by composing established ones? More generally, what type of targets can be learned by such models from scratch? Recent works show that Transformers can be Turing-complete in terms of expressivity, but this does not address the learnability objective. This paper puts forward the notion of 'distribution locality' to capture when weak learning is efficiently achievable by regular Transformers, where the locality measures the least number of tokens required in addition to the tokens histogram to correlate nontrivially with the target. As shown experimentally and theoretically under additional assumptions, distributions with high locality cannot be learned efficiently. In particular, syllogisms cannot be composed on long chains. Furthermore, we show that (i) an agnostic scratchpad cannot help to break the locality barrier, (ii) an educated scratchpad can help if it breaks the locality at each step, (iii) a notion of 'inductive scratchpad' can both break the locality and improve the out-of-distribution generalization, e.g., generalizing to almost double input size for some arithmetic tasks.
- Abstract(参考訳): トランスフォーマーは、確立したシロジズムを構成することによって、新しいシロジズムを予測することができるか?
より一般的に、そのようなモデルによって、どのようなターゲットをスクラッチから学べるか?
近年の研究では、トランスフォーマーは表現性の観点からチューリング完全であることが示されているが、これは学習可能性の目的に対処するものではない。
本稿では, 正規変圧器が弱学習を効率的に達成できる場合の「分布局所性」の概念を提唱し, トークンヒストグラムに加えて, トークンの最小数を測定することで, ターゲットと非自明に相関する。
追加の仮定の下で実験的に理論的に示されるように、高い局所性を持つ分布は効率的には学べない。
特に、シロジズムは長い鎖では構成できない。
さらには
(i)不可知のスクラッチパッドは、局所障壁を壊すのに役立ちません。
(二)各段階の局地性を損なう際には、教養のあるスクラッチパッドが役立ちます。
(三)「帰納的スクラッチパッド」という概念は、局所性を破り、分配外一般化(例えば、算術的なタスクのほぼ倍の入力サイズに一般化する)を改善することができる。
関連論文リスト
- Unleash the Power of Local Representations for Few-Shot Classification [6.722306005855269]
訓練中に目に見えない新しいクラスに一般化することは、数発の分類において重要な課題である。
最近の計量法は局所的な表現によってこの問題に対処しようとする。
本研究では,局所表現の力を解き放ち,新しいクラスを一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T05:51:04Z) - Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。
我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。
トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文 参考訳(メタデータ) (2024-05-23T21:42:19Z) - How Transformers Learn Causal Structure with Gradient Descent [49.808194368781095]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - Analyzing Transformer Dynamics as Movement through Embedding Space [0.0]
本稿では,トランスフォーマーをベースとした言語モデルが,自然言語理解などの知的行動を示す方法について考察する。
埋め込み空間を通した動きとしてフレーミングトランスフォーマーダイナミクスを提案する。
論文 参考訳(メタデータ) (2023-08-21T17:21:23Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Diagnosing Transformers in Task-Oriented Semantic Parsing [3.5788754401889022]
本稿では,BARTとXLM-Rの2つの意味解析手法について検討する。
トランスフォーマーベースは、意図やスロットの曖昧さに苦しむが、驚くべきことに、構文的に有能なフレームの生成にも苦労する。
トランスフォーマーベースのスパンは、フレームが正しいか間違っているかを示す十分な指標を提供するので、プロダクション環境でのデプロイが容易になります。
論文 参考訳(メタデータ) (2021-05-27T23:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。