論文の概要: Randomized Positional Encodings Boost Length Generalization of
Transformers
- arxiv url: http://arxiv.org/abs/2305.16843v1
- Date: Fri, 26 May 2023 11:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 15:23:14.977191
- Title: Randomized Positional Encodings Boost Length Generalization of
Transformers
- Title(参考訳): ランダムな位置符号化による変圧器長一般化
- Authors: Anian Ruoss, Gr\'egoire Del\'etang, Tim Genewein, Jordi Grau-Moya,
R\'obert Csord\'as, Mehdi Bennani, Shane Legg, Joel Veness
- Abstract要約: トランスフォーマーは、一定のコンテキスト長のタスクに対して印象的な一般化機能を持つ。
文字列の重複のような一見単純なタスクであっても、任意の長さの列に一般化できない。
この問題を克服できる位置エンコーディングの新たなファミリーを導入する。
- 参考スコア(独自算出の注目度): 14.814408238614165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have impressive generalization capabilities on tasks with a
fixed context length. However, they fail to generalize to sequences of
arbitrary length, even for seemingly simple tasks such as duplicating a string.
Moreover, simply training on longer sequences is inefficient due to the
quadratic computation complexity of the global attention mechanism. In this
work, we demonstrate that this failure mode is linked to positional encodings
being out-of-distribution for longer sequences (even for relative encodings)
and introduce a novel family of positional encodings that can overcome this
problem. Concretely, our randomized positional encoding scheme simulates the
positions of longer sequences and randomly selects an ordered subset to fit the
sequence's length. Our large-scale empirical evaluation of 6000 models across
15 algorithmic reasoning tasks shows that our method allows Transformers to
generalize to sequences of unseen length (increasing test accuracy by 12.0% on
average).
- Abstract(参考訳): トランスフォーマーは、一定のコンテキスト長を持つタスクで印象的な一般化機能を持つ。
しかし、文字列の重複のような一見単純なタスクであっても、任意の長さのシーケンスに一般化できない。
さらに、グローバルアテンション機構の2次計算複雑性のため、より長いシーケンスでのトレーニングは非効率である。
本稿では,この故障モードが(相対的なエンコーディングであっても)長いシーケンスに対して分散外である位置エンコーディングと関連していることを示し,この問題を克服できる新しい位置エンコーディングのファミリーを導入する。
具体的には、より長いシーケンスの位置をシミュレートし、配列の長さに合う順序付き部分集合をランダムに選択する。
15のアルゴリズム推論タスクにまたがる6000モデルの大規模実験評価を行った結果, トランスフォーマは検出されていない長さのシーケンスに一般化できることがわかった(平均12.0%の精度向上)。
関連論文リスト
- Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks [32.81985604969825]
本稿では,加法や乗算などの算術的なタスクにおいて,トランスフォーマーが長さを超越して一般化できないことを示す。
この失敗の背後にある大きな理由は、数字とテキストの間の大きな違いである。
本稿では,これらのセマンティクスを,修正された数値フォーマッティングとカスタム位置符号化によってモデルに明示的にエンコードすることを提案する。
論文 参考訳(メタデータ) (2024-06-04T02:00:07Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers [24.109312575970456]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z) - A Non-monotonic Self-terminating Language Model [62.93465126911921]
本稿では,不完全復号アルゴリズムによる非終端列の問題に焦点をあてる。
まず、グリーディ探索、トップ$kのサンプリング、核サンプリングを含む不完全確率復号アルゴリズムを定義する。
次に,単調な終端確率の制約を緩和する非単調な自己終端言語モデルを提案する。
論文 参考訳(メタデータ) (2022-10-03T00:28:44Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。