論文の概要: Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks
- arxiv url: http://arxiv.org/abs/2406.01895v1
- Date: Tue, 4 Jun 2024 02:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:13:20.323460
- Title: Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks
- Title(参考訳): 算数課題における長さ一般化の鍵となる構造対称性の明示的符号化
- Authors: Mahdi Sabbaghi, George Pappas, Hamed Hassani, Surbhi Goel,
- Abstract要約: 本稿では,加法や乗算などの算術的なタスクにおいて,トランスフォーマーが長さを超越して一般化できないことを示す。
この失敗の背後にある大きな理由は、数字とテキストの間の大きな違いである。
本稿では,これらのセマンティクスを,修正された数値フォーマッティングとカスタム位置符号化によってモデルに明示的にエンコードすることを提案する。
- 参考スコア(独自算出の注目度): 32.81985604969825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Transformers on language understanding, code generation, and logical reasoning, they still fail to generalize over length on basic arithmetic tasks such as addition and multiplication. A major reason behind this failure is the vast difference in structure between numbers and text; For example, the numbers are typically parsed from right to left, and there is a correspondence between digits at the same position across different numbers. In contrast, for text, such symmetries are quite unnatural. In this work, we propose to encode these semantics explicitly into the model via modified number formatting and custom positional encodings. Empirically, our method allows a Transformer trained on numbers with at most 5-digits for addition and multiplication to generalize up to 50-digit numbers, without using additional data for longer sequences. We further demonstrate that traditional absolute positional encodings (APE) fail to generalize to longer sequences, even when trained with augmented data that captures task symmetries. To elucidate the importance of explicitly encoding structure, we prove that explicit incorporation of structure via positional encodings is necessary for out-of-distribution generalization. Finally, we pinpoint other challenges inherent to length generalization beyond capturing symmetries, in particular complexity of the underlying task, and propose changes in the training distribution to address them.
- Abstract(参考訳): 言語理解、コード生成、論理推論においてトランスフォーマーが成功したにも拘わらず、加算や乗算といった基本的な算術的なタスクでは、長さを超越して一般化することができない。
例えば、数字は通常右から左にパースされ、異なる数字にまたがる同じ位置にある桁が対応している。
対照的に、テキストではそのような対称性は極めて不自然なものである。
本研究では,これらのセマンティクスを,修正された数値フォーマッティングとカスタム位置エンコーディングによってモデルに明示的にエンコードすることを提案する。
提案手法では,最大50桁までの数値を,最大5桁の数値を加算・乗算するためにトレーニングしたトランスフォーマーを,より長いシーケンスに対して追加データを用いることなく一般化することができる。
さらに、従来の絶対位置符号化(APE)は、タスク対称性をキャプチャする拡張データを用いて訓練しても、より長いシーケンスに一般化できないことを示す。
構造を明示的に符号化することの重要性を明らかにするために、分布外一般化には位置符号化による構造を明示的に組み込む必要があることを証明した。
最後に,対称性,特に基礎課題の複雑さを捉えること以外の,長さ一般化に固有の他の課題を指摘し,それに対応するためのトレーニング分布の変更を提案する。
関連論文リスト
- Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks [5.522116934552708]
大規模言語モデル(LLM)は多くのタスクにまたがって見事な汎用性を示しているが、その一般化能力はいまだによく分かっていない。
適切な位置埋め込みを持つモデルは、加算などの未確認演算を正しく行うことができることを示す。
また、特定のモジュライ (modulo 100) の下でのモジュラー加法 (modulo 101) の長い未確認ケースに対して、モデルが非常に近いモジュライ (modulo 101) の下での闘い (modulo 101) において、モデルがうまく動作することを示す。
これらの知見は一般化メカニズムの理解を深め、よりデータ効率のよいモデルトレーニングとオブジェクト指向AIアライメントを促進する。
論文 参考訳(メタデータ) (2024-07-25T11:35:22Z) - Position Coupling: Improving Length Generalization of Arithmetic Transformers Using Task Structure [42.89515104473087]
本稿では,タスクの構造をトランスフォーマーの位置エンコーディングに組み込む,シンプルで効果的な位置結合法を提案する。
1桁から30桁の加算でトレーニングされたモデルでは、最大200桁の加算を一般化できることを示す。
また,Nx2乗算や2次元タスクなど,他のアルゴリズムタスクにも位置カップリングが適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-31T08:13:35Z) - Transformers Can Do Arithmetic with the Right Embeddings [75.66545271398704]
算術演算における変換器の性能向上について述べる。
たった20桁の数値で1日1GPUでトレーニングすれば、最先端のパフォーマンスに到達できます。
これらの数的増加は、ソートや乗算を含む他の多段階の推論タスクの改善を解放する。
論文 参考訳(メタデータ) (2024-05-27T17:49:18Z) - Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Randomized Positional Encodings Boost Length Generalization of
Transformers [14.814408238614165]
トランスフォーマーは、一定のコンテキスト長のタスクに対して印象的な一般化機能を持つ。
文字列の重複のような一見単純なタスクであっても、任意の長さの列に一般化できない。
この問題を克服できる位置エンコーディングの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-05-26T11:47:52Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。