論文の概要: From Interpolation to Extrapolation: Complete Length Generalization for
Arithmetic Transformers
- arxiv url: http://arxiv.org/abs/2310.11984v2
- Date: Sun, 3 Mar 2024 09:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:57:55.595770
- Title: From Interpolation to Extrapolation: Complete Length Generalization for
Arithmetic Transformers
- Title(参考訳): 補間から外挿へ:算数変換器の完全長一般化
- Authors: Shaoxiong Duan, Yining Shi, Wei Xu
- Abstract要約: 対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。
ABC を用いて,変圧器モデルにより,ある種の算術課題において,前例のないほぼ完全長の一般化を達成できることを実証する。
- 参考スコア(独自算出の注目度): 7.880081695210078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the inherent capabilities of transformer models
in learning arithmetic algorithms, such as addition and parity. Through
experiments and attention analysis, we identify a number of crucial factors for
achieving optimal length generalization. We show that transformer models are
able to generalize to long lengths with the help of targeted attention biasing.
In particular, our solution solves the Parity task, a well-known and
theoretically proven failure mode for Transformers. We then introduce Attention
Bias Calibration (ABC), a calibration stage that enables the model to
automatically learn the proper attention biases, which we show to be connected
to mechanisms in relative position encoding. We demonstrate that using ABC, the
transformer model can achieve unprecedented near-perfect length generalization
on certain arithmetic tasks. Our code is available at https:
//github.com/shaoxiongduan/AttentionBiasCalibration.
- Abstract(参考訳): 本稿では,加法やパリティといった算術アルゴリズムの学習におけるトランスフォーマーモデルの本質的能力について検討する。
実験と注意分析を通じて,最適な長さ一般化を達成するための重要な要因を明らかにした。
対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。
特に, トランスフォーマーの故障モードとしてよく知られ, 理論的に証明されているparityタスクを解いた。
次に注意バイアスキャリブレーション(注意バイアスキャリブレーション、abc)を導入し、モデルが適切な注意バイアスを自動的に学習できるようにする。
我々は,ABCを用いて,ある算術課題に対して,前例のないほぼ完全長の一般化を達成できることを実証した。
私たちのコードはhttps: //github.com/shaoxiongduan/AttentionBiasCalibrationで利用可能です。
関連論文リスト
- Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Towards Understanding Inductive Bias in Transformers: A View From
Infinity [10.117509279024041]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - The Neural Data Router: Adaptive Control Flow in Transformers Improves
Systematic Generalization [8.424405898986118]
本稿では,トランスフォーマーアーキテクチャ,コピーゲート,幾何学的アテンションの2つの改良を提案する。
我々の新しいニューラル・データ・ルータ(NDR)は、古典的な構成表検索タスクにおいて、100%長の一般化精度を実現する。
NDRの注意とゲーティングパターンは直感的な神経ルーティングとして解釈される傾向がある。
論文 参考訳(メタデータ) (2021-10-14T21:24:27Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。