論文の概要: Position Coupling: Leveraging Task Structure for Improved Length Generalization of Transformers
- arxiv url: http://arxiv.org/abs/2405.20671v1
- Date: Fri, 31 May 2024 08:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:16:48.603699
- Title: Position Coupling: Leveraging Task Structure for Improved Length Generalization of Transformers
- Title(参考訳): 位置結合:変圧器長一般化のためのタスク構造の改善
- Authors: Hanseul Cho, Jaeyoung Cha, Pranjal Awasthi, Srinadh Bhojanapalli, Anupam Gupta, Chulhee Yun,
- Abstract要約: 本稿では,タスクの構造をトランスフォーマーの位置エンコーディングに組み込む,シンプルで効果的な位置結合法を提案する。
1桁から30桁の加算で訓練された小さな(1層)トランスフォーマーが最大200桁の加算を一般化できることを示す。
また,複数サマンドの追加,Nx2乗算,コピー/リバース,二次元タスクなど,他のアルゴリズムタスクにも位置カップリングが適用可能であることを示す。
- 参考スコア(独自算出の注目度): 42.89515104473087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even for simple arithmetic tasks like integer addition, it is challenging for Transformers to generalize to longer sequences than those encountered during training. To tackle this problem, we propose position coupling, a simple yet effective method that directly embeds the structure of the tasks into the positional encoding of a (decoder-only) Transformer. Taking a departure from the vanilla absolute position mechanism assigning unique position IDs to each of the tokens, we assign the same position IDs to two or more "relevant" tokens; for integer addition tasks, we regard digits of the same significance as in the same position. On the empirical side, we show that with the proposed position coupling, a small (1-layer) Transformer trained on 1 to 30-digit additions can generalize up to 200-digit additions (6.67x of the trained length). On the theoretical side, we prove that a 1-layer Transformer with coupled positions can solve the addition task involving exponentially many digits, whereas any 1-layer Transformer without positional information cannot entirely solve it. We also demonstrate that position coupling can be applied to other algorithmic tasks such as addition with multiple summands, Nx2 multiplication, copy/reverse, and a two-dimensional task.
- Abstract(参考訳): 整数加算のような単純な算術的なタスクであっても、Transformerがトレーニング中に遭遇したものよりも長いシーケンスに一般化することは困難である。
そこで本研究では,タスクの構造を直接(デコーダのみ)変換器の位置符号化に組み込む,シンプルで効果的な位置結合法を提案する。
それぞれのトークンに固有の位置IDを割り当てるバニラ絶対位置機構から出発すると、同じ位置IDを2つ以上の「関連」トークンに割り当てる。
経験的側面から,提案した位置結合では,1桁から30桁の加算で訓練された小さな (1層) 変圧器が最大200桁の加算(トレーニングされた長さの6.67倍)を一般化可能であることを示す。
理論的には、結合位置を持つ1層トランスは指数的に多くの桁を含む加算タスクを解くことができるが、位置情報を持たない1層トランスでは完全には解けない。
また,複数サマンドの追加,Nx2乗算,コピー/リバース,二次元タスクなど,他のアルゴリズムタスクにも位置カップリングが適用可能であることを示す。
関連論文リスト
- Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks [32.81985604969825]
本稿では,加法や乗算などの算術的なタスクにおいて,トランスフォーマーが長さを超越して一般化できないことを示す。
この失敗の背後にある大きな理由は、数字とテキストの間の大きな違いである。
本稿では,これらのセマンティクスを,修正された数値フォーマッティングとカスタム位置符号化によってモデルに明示的にエンコードすることを提案する。
論文 参考訳(メタデータ) (2024-06-04T02:00:07Z) - Transformers Can Do Arithmetic with the Right Embeddings [75.66545271398704]
算術演算における変換器の性能向上について述べる。
たった20桁の数値で1日1GPUでトレーニングすれば、最先端のパフォーマンスに到達できます。
これらの数的増加は、ソートや乗算を含む他の多段階の推論タスクの改善を解放する。
論文 参考訳(メタデータ) (2024-05-27T17:49:18Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - LAIT: Efficient Multi-Segment Encoding in Transformers with
Layer-Adjustable Interaction [31.895986544484206]
変換器(LAIT)における層間相互作用について紹介する。
LAIT内では、セグメント化された入力は、まず独立に符号化され、次に共同で符号化される。
LAITは高い精度を保ちながら、多くのタスクにおけるFLOPの30~50%の注意を減らすことができる。
論文 参考訳(メタデータ) (2023-05-31T06:09:59Z) - Randomized Positional Encodings Boost Length Generalization of
Transformers [14.814408238614165]
トランスフォーマーは、一定のコンテキスト長のタスクに対して印象的な一般化機能を持つ。
文字列の重複のような一見単純なタスクであっても、任意の長さの列に一般化できない。
この問題を克服できる位置エンコーディングの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-05-26T11:47:52Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。