論文の概要: Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium
- arxiv url: http://arxiv.org/abs/2511.21882v1
- Date: Wed, 26 Nov 2025 20:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.280889
- Title: Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium
- Title(参考訳): 閉ループ変圧器:反復潜在平衡としての自己回帰モデリング
- Authors: Akbar Anbar Jafari, Gholamreza Anbarjafari,
- Abstract要約: 閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
- 参考スコア(独自算出の注目度): 0.6820746164515952
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contemporary autoregressive transformers operate in open loop: each hidden state is computed in a single forward pass and never revised, causing errors to propagate uncorrected through the sequence. We identify this open-loop bottleneck as a fundamental architectural limitation underlying well-documented failures in long-range reasoning, factual consistency, and multi-step planning. To address this limitation, we introduce the closed-loop prediction principle, which requires that models iteratively refine latent representations until reaching a self-consistent equilibrium before committing to each token. We instantiate this principle as Equilibrium Transformers (EqT), which augment standard transformer layers with an Equilibrium Refinement Module that minimizes a learned energy function via gradient descent in latent space. The energy function enforces bidirectional prediction consistency, episodic memory coherence, and output confidence, all computed without external supervision. Theoretically, we prove that EqT performs approximate MAP inference in a latent energy-based model, establish linear convergence guarantees, and show that refinement improves predictions precisely on hard instances where one-shot inference is suboptimal. The framework unifies deep equilibrium models, diffusion language models, and test-time training as special cases. Preliminary experiments on the binary parity task demonstrate +3.28% average improvement on challenging sequences, with gains reaching +8.07% where standard transformers approach random performance, validating that the benefit of deliberation scales with task difficulty. Just as attention mechanisms resolved the sequential bottleneck of recurrent networks, we propose that closed-loop equilibrium may resolve the commitment bottleneck of open-loop autoregression, representing a foundational step toward language models.
- Abstract(参考訳): 現代の自己回帰変換器はオープンループで動作し、隠れた状態は1つのフォワードパスで計算され、修正されない。
我々は、このオープンループボトルネックを、長距離推論、事実整合性、マルチステップ計画において、文書化された失敗の基礎となる基本的なアーキテクチャ上の制限とみなす。
この制限に対処するために、各トークンにコミットする前に自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練させるクローズドループ予測原理を導入する。
我々は、この原理をEquilibrium Transformers (EqT) としてインスタンス化し、Equilibrium Refinement Module を用いて標準変圧器層を拡張し、潜時空間の勾配降下による学習エネルギー関数を最小化する。
エネルギー関数は双方向の予測整合性、エピソードメモリのコヒーレンス、出力信頼を強制する。
理論的には、EqTが潜在エネルギーベースモデルで近似MAP推論を行い、線形収束保証を確立することを示し、ワンショット推論が最適でないハードインスタンス上での精度良く予測を改善することを示す。
このフレームワークは、特に、深い均衡モデル、拡散言語モデル、テストタイムトレーニングを統一する。
バイナリパリティタスクに関する予備実験では、挑戦的なシーケンスに対する平均的な改善が+3.28%あり、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
注意機構がリカレントネットワークのシーケンシャルなボトルネックを解消するのと同じように、クローズドループ平衡はオープンループ自己回帰のコミットメントボトルネックを解消し、言語モデルへの基礎的なステップを示す。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - Preconditioned Langevin Dynamics with Score-Based Generative Models for Infinite-Dimensional Linear Bayesian Inverse Problems [4.2223436389469144]
スコアベース生成モデル(SGM)によって駆動されるランゲヴィン力学は、関数空間内で直接的に定式化される。
スコアの近似誤差に明示的に依存する誤差推定を初めて導いた。
その結果、基底函数空間上のクルバック・リーブラー発散における大域収束のための十分条件が得られる。
論文 参考訳(メタデータ) (2025-05-23T18:12:04Z) - Bottlenecked Transformers: Periodic KV Cache Consolidation for Generalised Reasoning [16.35681450323654]
トランスフォーマーLSMは推論時間計算でスケールする強力な推論能力を示すことが示されている。
KVキャッシュの書き直しによるメモリ(re)統合が、推論の改善に有効である理由を理論的に正当化する。
我々のモデルでは、バニラトランスフォーマーと停止する拡張ベースラインに対して一貫したパフォーマンス向上が見られ、選択されたタスク/バックボーンに対して最大6.6ppのゲインが得られる。
論文 参考訳(メタデータ) (2025-05-22T17:33:49Z) - Scalable Equilibrium Sampling with Sequential Boltzmann Generators [60.00515282300297]
Boltzmannジェネレータフレームワークを2つの重要なコントリビューションで拡張する。
1つ目は、全原子カルテシアン座標で直接動作する非常に効率的なトランスフォーマーベースの正規化フローである。
特に,連続モンテカルロの連続時間変種を用いて,流れサンプルの推論時スケーリングを行う。
論文 参考訳(メタデータ) (2025-02-25T18:59:13Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。