論文の概要: Stability and Generalization in Looped Transformers
- arxiv url: http://arxiv.org/abs/2604.15259v2
- Date: Wed, 22 Apr 2026 15:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.257283
- Title: Stability and Generalization in Looped Transformers
- Title(参考訳): ループ変換器の安定性と一般化
- Authors: Asher Labovich,
- Abstract要約: 本稿では,3軸の安定性に沿ってループ型アーキテクチャを解析するための固定点ベースフレームワークを提案する。
我々は、リコールのないループネットワークが可算な固定点を持ち、強い入力依存性を達成できないことを示す。
我々は,チェス,スドク,プレフィックスサムに対して単一層ループ変換器を訓練し,下流のパフォーマンスがフレームワークの予測を追跡することを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Looped transformers promise test-time compute scaling by spending more iterations on harder problems, but it remains unclear which architectural choices let them extrapolate to harder problems at test time rather than memorize training-specific solutions. We introduce a fixed-point based framework for analyzing looped architectures along three axes of stability -- reachability, input-dependence, and geometry -- and use it to characterize when fixed-point iteration yields meaningful predictions. Theoretically, we prove that looped networks without recall have countable fixed points and cannot achieve strong input-dependence at any spectral regime, while recall combined with outer normalization reliably produces a regime in which fixed points are simultaneously reachable, locally smooth in the input, and supported by stable backpropagation. Empirically, we train single-layer looped transformers on chess, sudoku, and prefix-sums and find that downstream performance tracks the framework's predictions across tasks and architectural configurations. We additionally introduce internal recall, a novel recall placement variant, and show that it becomes competitive with -- and on sudoku, substantially better than -- standard recall placement once outer normalization is applied.
- Abstract(参考訳): ループトランスフォーマーは、より難しい問題により多くのイテレーションを費やすことで、テスト時の計算スケーリングを約束するが、トレーニング固有のソリューションを記憶するよりも、テスト時に難しい問題に外挿できるアーキテクチャ上の選択は、まだ不明である。
安定度,入力依存性,幾何学という3つの軸に沿ったループ型アーキテクチャを解析するための固定点ベースのフレームワークを導入し,固定点反復が有意義な予測を得られる場合に特徴付ける。
理論的には、リコールのないループネットワークが可算な固定点を持ち、任意のスペクトル状態において強い入力依存性を達成できないことを証明し、一方、外部正規化と組み合わせることで、固定点が同時に到達可能で、入力を局所的に滑らかにし、安定なバックプロパゲーションによって支持される状態を生成する。
実証的に、チェス、スドク、プレフィックスサムで単一層ループトランスフォーマーをトレーニングし、下流のパフォーマンスがタスクやアーキテクチャ構成にわたってフレームワークの予測を追跡することを発見した。
また,新しいリコール配置変種である内部リコールを導入し,外正規化が適用されれば,スドクと競合するようになり,スドクでは標準リコール配置よりもかなり優れていることを示す。
関連論文リスト
- Finite-Step Invariant Sets for Hybrid Systems with Probabilistic Guarantees [3.312877318136442]
ポインケアリターンマップは、ハイブリッド力学系における周期軌道を解析するための基本的なツールである。
本稿では,サンプリングに基づく最適化を利用して,周期軌道上の有限ステップ不変楕円体を計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-04-06T19:05:51Z) - Causal Reconstruction of Sentiment Signals from Sparse News Data [0.0]
スパースニュースに由来する感度信号は、金融分析や技術監視によく用いられる。
記事レベルスコアを正規時間グリッドに集約する3段階パイプラインを提案する。
我々は,AI関連ニュースタイトルのデータセットに対して,株価データに対する再構成信号の整合性を評価する。
論文 参考訳(メタデータ) (2026-03-24T09:13:33Z) - Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates [31.296823831987748]
Baguan-TSは、3Dトランスフォーマーによってインスタンス化されるICLと生系列表現学習を統合している。
i) キャリブレーションとトレーニング安定性, 特徴に依存しない目標空間検索に基づく局所キャリブレーション, および (ii) コンテクストオーバーフィッティング戦略によって緩和された出力過スムージングの2つの主要なハードルに対処する。
論文 参考訳(メタデータ) (2026-03-18T07:24:19Z) - ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare [53.16118137855849]
本稿では,自動回帰フィードフォワードガウススプラッティングモデルであるReCoSplatについて述べる。
コードと事前訓練されたモデルがリリースされる。
論文 参考訳(メタデータ) (2026-03-10T17:58:08Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Robust Canonicalization through Bootstrapped Data Re-Alignment [5.437226012505534]
昆虫や鳥の識別などのきめ細かい視覚分類タスクは、微妙な視覚的手がかりに対する感受性を必要とする。
分散を低減してトレーニングサンプルを反復的に調整するブートストラップアルゴリズムを提案する。
本手法は,拡張と同等の性能を保ちながら,同変および正準化ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-09T13:05:20Z) - Optimal Regularization Under Uncertainty: Distributional Robustness and Convexity Constraints [9.77322868877488]
分布的に堅牢な最適正規化のためのフレームワークを導入する。
トレーニング分布の計算と均一な事前計算との間には,ロバストな正則化器がどのように介在するかを示す。
論文 参考訳(メタデータ) (2025-10-03T19:35:38Z) - Refined Risk Bounds for Unbounded Losses via Transductive Priors [67.12679195076387]
線形回帰の逐次変分を2乗損失、ヒンジ損失の分類問題、ロジスティック回帰で再検討する。
我々の鍵となるツールは、慎重に選択された導出先を持つ指数重み付けアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2024-10-29T00:01:04Z) - Non-stationary Transformers: Exploring the Stationarity in Time Series
Forecasting [86.33543833145457]
本稿では,2つの相互依存モジュールを持つ汎用フレームワークとして,非定常変圧器を提案する。
我々のフレームワークは、メインストリームのトランスフォーマーを、大きなマージンで継続的に増加させ、トランスフォーマーで49.43%、インフォーマーで47.34%、改革派で46.89%削減します。
論文 参考訳(メタデータ) (2022-05-28T12:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。