論文の概要: Position Coupling: Improving Length Generalization of Arithmetic Transformers Using Task Structure
- arxiv url: http://arxiv.org/abs/2405.20671v2
- Date: Wed, 30 Oct 2024 16:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:32.116129
- Title: Position Coupling: Improving Length Generalization of Arithmetic Transformers Using Task Structure
- Title(参考訳): 位置結合:タスク構造を用いた算数変換器の長さ一般化の改善
- Authors: Hanseul Cho, Jaeyoung Cha, Pranjal Awasthi, Srinadh Bhojanapalli, Anupam Gupta, Chulhee Yun,
- Abstract要約: 本稿では,タスクの構造をトランスフォーマーの位置エンコーディングに組み込む,シンプルで効果的な位置結合法を提案する。
1桁から30桁の加算でトレーニングされたモデルでは、最大200桁の加算を一般化できることを示す。
また,Nx2乗算や2次元タスクなど,他のアルゴリズムタスクにも位置カップリングが適用可能であることを示す。
- 参考スコア(独自算出の注目度): 42.89515104473087
- License:
- Abstract: Even for simple arithmetic tasks like integer addition, it is challenging for Transformers to generalize to longer sequences than those encountered during training. To tackle this problem, we propose position coupling, a simple yet effective method that directly embeds the structure of the tasks into the positional encoding of a (decoder-only) Transformer. Taking a departure from the vanilla absolute position mechanism assigning unique position IDs to each of the tokens, we assign the same position IDs to two or more "relevant" tokens; for integer addition tasks, we regard digits of the same significance as in the same position. On the empirical side, we show that with the proposed position coupling, our models trained on 1 to 30-digit additions can generalize up to 200-digit additions (6.67x of the trained length). On the theoretical side, we prove that a 1-layer Transformer with coupled positions can solve the addition task involving exponentially many digits, whereas any 1-layer Transformer without positional information cannot entirely solve it. We also demonstrate that position coupling can be applied to other algorithmic tasks such as Nx2 multiplication and a two-dimensional task.
- Abstract(参考訳): 整数加算のような単純な算術的なタスクであっても、Transformerがトレーニング中に遭遇したものよりも長いシーケンスに一般化することは困難である。
そこで本研究では,タスクの構造を直接(デコーダのみ)変換器の位置符号化に組み込む,シンプルで効果的な位置結合法を提案する。
それぞれのトークンに固有の位置IDを割り当てるバニラ絶対位置機構から出発すると、同じ位置IDを2つ以上の「関連」トークンに割り当てる。
実験的な面では,提案した位置結合により,最大200桁の加算(トレーニング長の6.67倍)を1桁から30桁の加算でトレーニングしたモデルで一般化できることが示されている。
理論的には、結合位置を持つ1層トランスは指数的に多くの桁を含む加算タスクを解くことができるが、位置情報を持たない1層トランスでは完全には解けない。
また,Nx2乗算や2次元タスクなど,他のアルゴリズムタスクにも位置カップリングが適用可能であることを示す。
関連論文リスト
- Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count [19.148785141454642]
トランスフォーマーはしばしば長さの一般化に苦しむため、トレーニング中に遭遇したものよりも長いシーケンスに一般化できない。
本研究は,算術変換器で最初に達成された2~3倍の長さのタスクを一般化する。
論文 参考訳(メタデータ) (2024-10-21T08:49:51Z) - Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks [32.81985604969825]
本稿では,加法や乗算などの算術的なタスクにおいて,トランスフォーマーが長さを超越して一般化できないことを示す。
この失敗の背後にある大きな理由は、数字とテキストの間の大きな違いである。
本稿では,これらのセマンティクスを,修正された数値フォーマッティングとカスタム位置符号化によってモデルに明示的にエンコードすることを提案する。
論文 参考訳(メタデータ) (2024-06-04T02:00:07Z) - Transformers Can Do Arithmetic with the Right Embeddings [75.66545271398704]
算術演算における変換器の性能向上について述べる。
たった20桁の数値で1日1GPUでトレーニングすれば、最先端のパフォーマンスに到達できます。
これらの数的増加は、ソートや乗算を含む他の多段階の推論タスクの改善を解放する。
論文 参考訳(メタデータ) (2024-05-27T17:49:18Z) - Carrying over algorithm in transformers [0.0]
オーバーアルゴリズムは2つのタスクから構成される:同じ位置に桁を追加し、必要に応じて1つ以上を運ぶ。
本研究では、トランスモデルがこのアルゴリズムをどのように実装し、上記の2つのタスクがネットワークの異なる部分にどのように割り当てられるかを検討する。
論文 参考訳(メタデータ) (2024-01-15T22:36:11Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - LAIT: Efficient Multi-Segment Encoding in Transformers with
Layer-Adjustable Interaction [31.895986544484206]
変換器(LAIT)における層間相互作用について紹介する。
LAIT内では、セグメント化された入力は、まず独立に符号化され、次に共同で符号化される。
LAITは高い精度を保ちながら、多くのタスクにおけるFLOPの30~50%の注意を減らすことができる。
論文 参考訳(メタデータ) (2023-05-31T06:09:59Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。