論文の概要: Length Generalization with Log-Depth Recurrent Units
- arxiv url: http://arxiv.org/abs/2605.26035v1
- Date: Mon, 25 May 2026 17:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.531095
- Title: Length Generalization with Log-Depth Recurrent Units
- Title(参考訳): Log-Depth Recurrent Unitsによる長さ一般化
- Authors: Charles Pert, Dalal Alrajeh, Alessandra Russo,
- Abstract要約: 正規言語は、長さの一般化を評価するために頻繁に使用されるテストベッドを提供する。
本稿では,アソシエーションバイアスのある演算子のクラスをキャプチャするLog-Depth Recurrent Unitを提案する。
我々は標準ベンチマークと新しいプレフィックス言語からなる21の正規言語タスクで-LDRUを評価した。
- 参考スコア(独自算出の注目度): 46.54060985002888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Length generalization remains a persistent challenge for neural networks: recurrent models tend to suffer from positional biases, while transformers are constrained by fixed computational depth. Regular languages provide a frequently used testbed for evaluating length generalization, as label prediction can be checked for any sequence length. We propose MLP-LDRU, a type of Log-Depth Recurrent Unit, which captures a class of associativity-biased operators designed to approximate recurrence through parallel reduction. We evaluate MLP-LDRU on 21 regular-language tasks, consisting of standard benchmarks and new prefix languages, where it achieves 100% out-of-distribution accuracy on 18 tasks and at least 99.9% on the remaining 3 when increasing max training length, outperforming comparable recurrent and attention-based models. We further evaluate MLP-LDRU beyond regular languages on ListOps and NLP classification benchmarks, where it performs competitively.
- Abstract(参考訳): リカレントモデルは位置バイアスに悩まされるが、トランスフォーマーは固定された計算深度に制約される。
正規言語は、任意のシーケンス長に対してラベル予測をチェックすることができるため、長さの一般化を評価するために頻繁に使用されるテストベッドを提供する。
並列化による再帰を近似するアソシエーションバイアスを持つ演算子のクラスをキャプチャする,ログディープスリカレントユニットの一種であるMLP-LDRUを提案する。
我々は、標準ベンチマークと新しいプレフィックス言語からなる21の正規言語タスクに対してMLP-LDRUを評価し、最大トレーニング長を増大させると18のタスクに対して100%のアウト・オブ・ディストリビューション精度を達成し、残りの3では少なくとも99.9%を達成し、同等のリカレントおよびアテンションベースモデルよりも優れる。
MLP-LDRUはListOpsやNLP分類ベンチマークで正規言語を超えて評価され、競合的に性能が向上する。
関連論文リスト
- AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth [23.442686851761298]
AdaPonderLMは、事前トレーニング中にトークン単位の早期終了を学習する、自己教師型リカレント言語モデルである。
AdaPonderLMは、比較可能な言語モデリングの難易度と競合する下流の精度を維持しながら、推論計算を約10%削減する。
論文 参考訳(メタデータ) (2026-03-02T14:28:16Z) - Position as Probability: Self-Supervised Transformers that Think Past Their Training for Length Extrapolation [0.0]
PRISMは、トランスフォーマーがトレーニング長の10倍まで正確に外挿できる新しい位置符号化機構である。
解析により、PRISMの位置エンコーディングは鋭く解釈可能な内部状態を維持しており、信頼性のある長さ一般化の理論的基礎となっていることが示された。
論文 参考訳(メタデータ) (2025-06-01T09:20:44Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Randomized Positional Encodings Boost Length Generalization of
Transformers [14.814408238614165]
トランスフォーマーは、一定のコンテキスト長のタスクに対して印象的な一般化機能を持つ。
文字列の重複のような一見単純なタスクであっても、任意の長さの列に一般化できない。
この問題を克服できる位置エンコーディングの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-05-26T11:47:52Z) - Empirical Analysis of the Inductive Bias of Recurrent Neural Networks by
Discrete Fourier Transform of Output Sequences [7.279215553861787]
本研究の目的は、リカレントニューラルネットワーク(RNN)の固有一般化特性、すなわち帰納バイアスを明らかにすることである。
実験の結果,Long Short-Term Memory (LSTM) とGated Recurrent Unit (GRU) は低周波パターンに対する誘導バイアスを有することがわかった。
また,LSTMとGRUの誘導バイアスは,層数や層の大きさによって異なることがわかった。
論文 参考訳(メタデータ) (2023-05-16T05:30:13Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。