Fugu-MT 論文翻訳(概要): Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count

論文の概要: Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count

arxiv url: http://arxiv.org/abs/2410.15787v1
Date: Mon, 21 Oct 2024 08:49:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.340227
Title: Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count
Title（参考訳）: 算数長と算数長の算術変換器
Authors: Hanseul Cho, Jaeyoung Cha, Srinadh Bhojanapalli, Chulhee Yun,
Abstract要約: トランスフォーマーはしばしば長さの一般化に苦しむため、トレーニング中に遭遇したものよりも長いシーケンスに一般化できない。本研究は,算術変換器で最初に達成された2～3倍の長さのタスクを一般化する。
参考スコア（独自算出の注目度）: 19.148785141454642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers often struggle with length generalization, meaning they fail to generalize to sequences longer than those encountered during training. While arithmetic tasks are commonly used to study length generalization, certain tasks are considered notoriously difficult, e.g., multi-operand addition (requiring generalization over both the number of operands and their lengths) and multiplication (requiring generalization over both operand lengths). In this work, we achieve approximately 2-3x length generalization on both tasks, which is the first such achievement in arithmetic Transformers. We design task-specific scratchpads enabling the model to focus on a fixed number of tokens per each next-token prediction step, and apply multi-level versions of Position Coupling (Cho et al., 2024; McLeish et al., 2024) to let Transformers know the right position to attend to. On the theory side, we prove that a 1-layer Transformer using our method can solve multi-operand addition, up to operand length and operand count that are exponential in embedding dimension.
Abstract（参考訳）: トランスフォーマーはしばしば長さの一般化に苦しむため、トレーニング中に遭遇したものよりも長いシーケンスに一般化できない。算術的なタスクは長さの一般化を研究するのに一般的に使用されるが、あるタスクは、例えば、複数操作の加算(オペランドの数と長さの両方の一般化を要求する)、乗法(オペランドの長さの一般化を要求する)など、非常に難しいと考えられている。本研究は,算術変換器で最初に達成された2～3倍の長さのタスクを一般化する。タスク固有のスクラッチパッドを設計し、次点予測ステップ毎に一定数のトークンにフォーカスできるようにし、複数レベルの位置結合(Cho et al , 2024; McLeish et al , 2024)を適用して、トランスフォーマーに適切な位置を知らせる。理論面では,本手法を用いた1層変圧器は,埋め込み次元で指数関数的なオペランド長とオペランド数まで,多動作加算を解くことができることを示す。

関連論文リスト

The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文参考訳（メタデータ） (2025-02-24T03:01:03Z)
A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文参考訳（メタデータ） (2024-10-03T01:52:01Z)
Looped Transformers for Length Generalization [41.99378201613648]
適応的なステップ数を持つループ変換器は長さの一般化を著しく向上することを示す。我々は,提案した学習アルゴリズムを用いてループ変換器を訓練し,様々なタスクに対して,高度に長大な一般化可能な解を学習することを確認する。
論文参考訳（メタデータ） (2024-09-24T01:21:17Z)
Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。位置符号化を伴わない変圧器長一般化特性について検討する。 NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文参考訳（メタデータ） (2024-04-18T14:38:32Z)
Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文参考訳（メタデータ） (2024-02-14T18:18:29Z)
What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文参考訳（メタデータ） (2023-10-24T17:43:29Z)
Improving Length-Generalization in Transformers via Task Hinting [42.95479331339189]
特に、タスクで訓練された変換器モデルの性能は、同じ問題の長いインスタンスに適用した場合、急激に低下する。本研究は,タスクヒントに基づく長さ一般化へのアプローチを提案する。
論文参考訳（メタデータ） (2023-10-01T16:57:40Z)
LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文参考訳（メタデータ） (2023-07-05T17:59:38Z)
Compositional Generalization and Decomposition in Neural Program Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。 2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文参考訳（メタデータ） (2022-04-07T22:16:05Z)
Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文参考訳（メタデータ） (2020-10-14T12:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。