論文の概要: Closing the Loop on Latent Reasoning via Test-Time Reconstruction
- arxiv url: http://arxiv.org/abs/2606.06252v1
- Date: Thu, 04 Jun 2026 14:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.876916
- Title: Closing the Loop on Latent Reasoning via Test-Time Reconstruction
- Title(参考訳): テスト時間再構成による潜時推論のループの閉鎖
- Authors: Xiaopeng Yuan, Haibo Jin, Ye Yu, Peng Kuang, Lijun Yu, Yushun Dong, Haohan Wang,
- Abstract要約: 最近の研究は、中間推論を自然言語のトレースから潜時あるいはキャッシュレベルの表現に移行している。
本稿では,クエリ自体を参照としてループをクローズする自己教師型テストタイムトレーニング手法であるRELATを提案する。
ReLATは、単一モデル推論、テキストベースのコラボレーション、オープンループラテントコラボレーション、代替テストタイムトレーニング目標よりも一貫して改善されていることを示す。
- 参考スコア(独自算出の注目度): 45.08180971427891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work moves intermediate reasoning from natural-language traces into latent or cache-level representations to reduce token overhead and avoid a discrete communication bottleneck. However, this shift also removes a key advantage of textual reasoning: intermediate states are no longer inspectable, making it difficult to determine whether a latent state still preserves the constraints of the original query. As a result, latent reasoning typically operates in an open loop, where a latent state is produced and consumed without an input-anchored fidelity check. We propose ReLAT (Reconstruction-Guided Latent Reasoning At Test Time), a self-supervised test-time training method that closes this loop using the query itself as the reference. Our key observation is that if a latent state faithfully represents a query, the query should be recoverable from it; if the query cannot be recovered, the latent state has lost task-relevant information. ReLAT operationalizes this principle by constructing a differentiable Question -> Latent Thought -> Question cycle and optimizing query reconstruction loss through the latent thought before answer generation. This anchors opaque latent computation to the problem specification it is supposed to represent. Across mathematical reasoning, knowledge QA, and code generation benchmarks on the Qwen family, ReLAT consistently improves over single-model inference, text-based collaboration, open-loop latent collaboration, and alternative test-time training objectives. On Qwen3-8B, ReLAT raises AIME 2024 accuracy from 56.7% to 73.3%, a 16.6-point gain over the strongest open-loop latent baseline.
- Abstract(参考訳): 最近の研究は、中間的推論を自然言語のトレースから潜在あるいはキャッシュレベルの表現に移し、トークンのオーバーヘッドを減らし、個別の通信ボトルネックを避ける。
中間状態はもはや検査不可能であり、潜伏状態が元のクエリの制約をまだ保持しているかどうかを判断することは困難である。
その結果、潜伏推論は通常オープンループで動作し、潜伏状態は入力アンコールされた忠実度チェックなしで生成され、消費される。
本稿では,RelaT(Reconstruction-Guided Latent Reasoning At Test Time)を提案する。
私たちのキーとなる観察は、潜伏状態がクエリを忠実に表現しているなら、そのクエリは、そのクエリから回復可能であるべきです。
ReLATは、この原則を、識別可能な質問 ->潜在思考 ->質問サイクルを構築し、回答生成前の潜在思考を通してクエリ再構築損失を最適化することによって、運用する。
これは、表現すべき問題仕様に不透明な遅延計算をアンカーする。
数学的推論、知識QA、Qwenファミリーのコード生成ベンチマークなど、ReLATは一貫してシングルモデル推論、テキストベースのコラボレーション、オープンループの潜在コラボレーション、代替のテストタイムトレーニングの目標を改善している。
Qwen3-8Bでは、RELATはAIME 2024の精度を56.7%から73.3%に引き上げ、最強のオープンループ潜航ベースラインよりも16.6ポイント向上した。
関連論文リスト
- CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning [22.944748148277146]
CopTは、通常の思考と回答の順序を逆転する、改訂された推論パイプラインである。
CopTは、ドラフト回答を付与し、その後、独自のドラフト回答で条件付きで、後続のオンライン思考を起動する。
CopTはピーク精度を最大23%改善し、トークン使用量を最大57%削減する。
論文 参考訳(メタデータ) (2026-05-19T16:28:53Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - QUARK: Robust Retrieval under Non-Faithful Queries via Query-Anchored Aggregation [2.505352949111876]
QUARKは、非忠実なクエリの下で堅牢な検索を行うためのトレーニング不要のフレームワークである。
この設計により、QUIRKは堅牢性を犠牲にすることなくリコールとランキング品質を改善することができる。
論文 参考訳(メタデータ) (2026-01-28T21:14:49Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Reading Between the Timelines: RAG for Answering Diachronic Questions [8.969698902720799]
我々は、時間論理を注入するためにRAGパイプラインを根本的に再設計する新しいフレームワークを提案する。
提案手法は回答精度を大幅に向上し,標準RAG実装を13%から27%上回る結果となった。
この研究はRAGシステムに対する検証された経路を提供し、複雑な現実世界の質問に必要とされるニュアンス付き進化分析を行うことができる。
論文 参考訳(メタデータ) (2025-07-21T05:19:41Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。