論文の概要: On the "Induction Bias" in Sequence Models
- arxiv url: http://arxiv.org/abs/2602.18333v1
- Date: Fri, 20 Feb 2026 16:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.383589
- Title: On the "Induction Bias" in Sequence Models
- Title(参考訳): シーケンスモデルにおける「インダクションバイアス」について
- Authors: M. Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic,
- Abstract要約: 複数の監督体制をまたいだトランスフォーマーとニューラルネットワークのデータ効率について検討する。
変換器が要求するトレーニングデータの量は、RNNよりも、状態空間のサイズとシーケンス長がはるかに速く成長することがわかった。
その結果,トランスフォーマーは長さにまたがって無視的あるいは有害な重量共有を呈し,独立に長さ依存の解を学習していることが示唆された。
- 参考スコア(独自算出の注目度): 6.579762822438948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable practical success of transformer-based language models, recent work has raised concerns about their ability to perform state tracking. In particular, a growing body of literature has shown this limitation primarily through failures in out-of-distribution (OOD) generalization, such as length extrapolation. In this work, we shift attention to the in-distribution implications of these limitations. We conduct a large-scale experimental study of the data efficiency of transformers and recurrent neural networks (RNNs) across multiple supervision regimes. We find that the amount of training data required by transformers grows much more rapidly with state-space size and sequence length than for RNNs. Furthermore, we analyze the extent to which learned state-tracking mechanisms are shared across different sequence lengths. We show that transformers exhibit negligible or even detrimental weight sharing across lengths, indicating that they learn length-specific solutions in isolation. In contrast, recurrent models exhibit effective amortized learning by sharing weights across lengths, allowing data from one sequence length to improve performance on others. Together, these results demonstrate that state tracking remains a fundamental challenge for transformers, even when training and evaluation distributions match.
- Abstract(参考訳): トランスフォーマーベースの言語モデルの顕著な実践的な成功にもかかわらず、最近の研究は、状態追跡を行う能力に関する懸念を提起している。
特に、成長する文献の体系は、主に長さ外挿のような分布外分布(OOD)一般化の失敗を通して、この制限を示してきた。
本研究は,これらの制限の分布内含意に注意を向ける。
我々は、トランスとリカレントニューラルネットワーク(RNN)のデータ効率を、複数の監督体制にわたって大規模に実験的に研究する。
変換器が要求するトレーニングデータの量は、RNNよりも、状態空間のサイズとシーケンス長がはるかに速く成長することがわかった。
さらに、学習した状態追跡機構が、異なるシーケンスの長さで共有される範囲を分析する。
その結果,トランスフォーマーは長さにまたがって無視的あるいは有害な重量共有を呈し,独立に長さ依存の解を学習していることが示唆された。
対照的に、リカレントモデルでは、長さにまたがる重みを共有することで、効果的な償却学習が示され、あるシーケンス長のデータによって、他の性能が向上する。
これらの結果は、トレーニングと評価の分布が一致しても、状態追跡が変圧器の基本的な課題であることを示している。
関連論文リスト
- Quantitative Bounds for Length Generalization in Transformers [58.175107357008876]
変圧器における長さ一般化(LG)問題について検討する。
LGは、長い列上の変圧器の内部挙動が短い列上の振舞いによって「シミュレート」できるときに発生する。
論文 参考訳(メタデータ) (2025-10-30T21:31:36Z) - Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities [58.742178800799614]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - A Theory for Compressibility of Graph Transformers for Transductive Learning [6.298115235439078]
グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクと根本的に異なる。
すべてのトレイン/テスト/バリデーションサンプルは、トレーニング中に存在しており、半教師付きタスクに似ています。
我々は、これらのネットワークの隠れた次元をどのように圧縮できるかという理論的な境界を定めている。
論文 参考訳(メタデータ) (2024-11-20T04:20:17Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Causal Transformer for Estimating Counterfactual Outcomes [18.640006398066188]
多くのアプリケーションでは、観測データから時間とともに反現実的な結果を予測することが重要となる。
我々は、時間とともに反現実的な結果を予測するための新しい因果変換器を開発した。
私たちのモデルは、時間によって異なる共同設立者間の複雑な長距離依存関係をキャプチャするために特別に設計されています。
論文 参考訳(メタデータ) (2022-04-14T22:40:09Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。