Fugu-MT 論文翻訳(概要): Transformers Can Achieve Length Generalization But Not Robustly

論文の概要: Transformers Can Achieve Length Generalization But Not Robustly

arxiv url: http://arxiv.org/abs/2402.09371v1
Date: Wed, 14 Feb 2024 18:18:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 14:10:43.921639
Title: Transformers Can Achieve Length Generalization But Not Robustly
Title（参考訳）: トランスフォーマーは長さ一般化はできるが頑健ではない
Authors: Yongchao Zhou, Uri Alon, Xinyun Chen, Xuezhi Wang, Rishabh Agarwal, Denny Zhou
Abstract要約: 長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
参考スコア（独自算出の注目度）: 76.06308648699357
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Length generalization, defined as the ability to extrapolate from shorter training sequences to longer test ones, is a significant challenge for language models. This issue persists even with large-scale Transformers handling relatively straightforward tasks. In this paper, we test the Transformer's ability of length generalization using the task of addition of two integers. We show that the success of length generalization is intricately linked to the data format and the type of position encoding. Using the right combination of data format and position encodings, we show for the first time that standard Transformers can extrapolate to a sequence length that is 2.5x the input length. Nevertheless, unlike in-distribution generalization, length generalization remains fragile, significantly influenced by factors like random weight initialization and training data order, leading to large variances across different random seeds.
Abstract（参考訳）: 長さ一般化は、短いトレーニングシーケンスから長いテストシーケンスに外挿する能力として定義されており、言語モデルにとって重要な課題である。この問題は、比較的簡単なタスクを扱う大規模トランスフォーマーでも継続する。本論文では,2つの整数を加算するタスクを用いて,トランスフォーマーの長さ一般化能力をテストする。長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。データフォーマットと位置エンコーディングの正しい組み合わせを用いて、標準トランスフォーマーが入力長さの2.5倍のシーケンス長まで外挿可能であることを初めて示す。それにもかかわらず、分布内一般化とは異なり、長さ一般化は脆弱であり、ランダムウェイト初期化やトレーニングデータ順序などの要因の影響が大きく、異なるランダムシードにまたがる大きなばらつきをもたらす。

関連論文リスト

On Vanishing Variance in Transformer Length Generalization [23.706900145711913]
また,今日のフロンティアモデルにおいても,より長いシーケンス長はマルチヘッドアテンションモジュールの出力のばらつきを減少させることを示した。分析では, この改善は分散の消失による分布シフトを完全に排除したものではないものの, 削減したと考えられる。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文参考訳（メタデータ） (2025-02-24T03:01:03Z)
Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count [19.148785141454642]
トランスフォーマーはしばしば長さの一般化に苦しむため、トレーニング中に遭遇したものよりも長いシーケンスに一般化できない。本研究は,算術変換器で最初に達成された2～3倍の長さのタスクを一般化する。
論文参考訳（メタデータ） (2024-10-21T08:49:51Z)
A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文参考訳（メタデータ） (2024-10-03T01:52:01Z)
Looped Transformers for Length Generalization [41.99378201613648]
適応的なステップ数を持つループ変換器は長さの一般化を著しく向上することを示す。我々は,提案した学習アルゴリズムを用いてループ変換器を訓練し,様々なタスクに対して,高度に長大な一般化可能な解を学習することを確認する。
論文参考訳（メタデータ） (2024-09-24T01:21:17Z)
Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。位置符号化を伴わない変圧器長一般化特性について検討する。 NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文参考訳（メタデータ） (2024-04-18T14:38:32Z)
Functional Interpolation for Relative Positions Improves Long Context Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。 FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文参考訳（メタデータ） (2023-10-06T17:59:11Z)
LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文参考訳（メタデータ） (2023-07-05T17:59:38Z)
The Impact of Positional Encoding on Length Generalization in Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文参考訳（メタデータ） (2023-05-31T00:29:55Z)
Randomized Positional Encodings Boost Length Generalization of Transformers [14.814408238614165]
トランスフォーマーは、一定のコンテキスト長のタスクに対して印象的な一般化機能を持つ。文字列の重複のような一見単純なタスクであっても、任意の長さの列に一般化できない。この問題を克服できる位置エンコーディングの新たなファミリーを導入する。
論文参考訳（メタデータ） (2023-05-26T11:47:52Z)
A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。注目度を最大化するために,相対的な位置埋め込みを導入する。言語モデルを用いてトランスフォーマーの変種を評価する。
論文参考訳（メタデータ） (2022-12-20T18:56:20Z)
Sequence Length is a Domain: Length-based Overfitting in Transformer Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文参考訳（メタデータ） (2021-09-15T13:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。