Fugu-MT 論文翻訳(概要): LaTER: Efficient Test-Time Reasoning via Latent Exploration and Explicit Verification

論文の概要: LaTER: Efficient Test-Time Reasoning via Latent Exploration and Explicit Verification

arxiv url: http://arxiv.org/abs/2605.07315v1
Date: Fri, 08 May 2026 06:23:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.853846
Title: LaTER: Efficient Test-Time Reasoning via Latent Exploration and Explicit Verification
Title（参考訳）: LaTER: 潜時探索と明示的検証による効率的なテスト時間推論
Authors: Xuan Li, Yining Wang, Yuchen Liu, Guanjun Liu, Delai Qiu, Shengping Liu, Jiaen Liang, Wei Huang, Jun Yu, Junnan Zhu,
Abstract要約: CoT(Chain-of- Thought)推論は、難しいタスクにおいて大きな言語モデル(LLM)を改善するが、推論コストも高くつく。本稿では,連続潜伏空間における有界探索を最初に行う2段階のパラダイムであるLaTERを提案する。 LaTERは入力の埋め込み空間に隠された最後の層を投影し、潜伏KVキャッシュを保持し、エントロピーとモデルネイティブのストップトーケンプローブを使用していつ切り替えるかを決定する。
参考スコア（独自算出の注目度）: 35.08680804423239
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-thought (CoT) reasoning improves large language models (LLMs) on difficult tasks, but it also makes inference expensive because every intermediate step must be generated as a discrete token. Latent reasoning reduces visible token generation by propagating continuous states, yet replacing explicit derivations with latent computation can hurt tasks that require symbolic checking. We propose Latent-Then-Explicit Reasoning (LaTER), a two-stage paradigm that first performs bounded exploration in a continuous latent space and then switches to explicit CoT for verification and answer generation. In a training-free instantiation, LaTER projects final-layer hidden states back to the input embedding space, preserves the latent KV cache, and uses entropy and model-native stop-token probes to decide when to switch. We find that strong reasoning models already exhibit structured latent trajectories under this interface. On Qwen3-14B, training-free LaTER reduces total token usage by 16%-32% on several benchmarks while matching or improving accuracy on most of them; for example, it improves AIME 2025 from 70.0% to 73.3% while reducing tokens from 15,730 to 10,661. We further construct Latent-Switch-69K, a supervised corpus that pairs condensed solution intuitions with shortened explicit derivations. Fine-tuning with latent rollout and halting supervision yields additional gains: trained LaTER reaches 80.0% accuracy on AIME 2025, 10.0 points above the standard CoT baseline, while using 33% fewer tokens. Our code, data, and model are available at https://github.com/TioeAre/LaTER.
Abstract（参考訳）: CoT推論は難しいタスクにおいて大きな言語モデル(LLM)を改善するが、すべての中間ステップを離散トークンとして生成しなければならないため、推論も高価になる。潜在推論は、連続状態の伝播による可視トークン生成を減らすが、明示的な導出を潜在計算に置き換えることで、シンボリックチェックを必要とするタスクを損なう。本稿では,連続的な潜在空間における有界探索を最初に実行し,検証と応答生成のために明示的なCoTに切り替える2段階のパラダイムであるLaTERを提案する。トレーニング不要のインスタンス化では、LaTERは最終層が隠された状態を入力埋め込み空間に投射し、潜在KVキャッシュを保存し、エントロピーとモデルネイティブのストップトーケンプローブを使用していつ切り替えるかを決定する。強い推論モデルは、このインタフェースの下で既に構造化された潜在軌道を示す。 Qwen3-14Bでは、トレーニングフリーのLaTERは、いくつかのベンチマークでトークンの総使用量を16%-32%削減し、多くのベンチマークでは精度を向上し、例えば、AIME 2025を70.0%から73.3%に改善し、トークンを15,730から10,661に削減する。さらに、凝縮した解直観と明示的な導出を短縮した教師付きコーパスであるlatent-Switch-69Kを構築した。トレーニングされたLaTERは、標準のCoTベースラインよりも80.0%、標準のCoTベースラインより10.0ポイント高く、トークンは33%少ない。私たちのコード、データ、モデルはhttps://github.com/TioeAre/LaTER.orgで公開されています。

関連論文リスト

LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning [15.597220136913258]
LYNXはオンラインのアーリーエグジットメカニズムで、モデル自身の隠れ状態の認識を信頼性制御による停止決定に変換する。一般的な数学的コーパスで一度このプローブをトレーニングして校正し、ベンチマーク、復号化温度、さらには非数学的なタスクで再利用します。
論文参考訳（メタデータ） (2025-12-05T00:04:42Z)
EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文参考訳（メタデータ） (2025-11-29T23:47:47Z)
Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models [22.525318796588568]
シンク・アット・ハード(Think-at-Hard, TaH)は、ハードトークンでのみ深く反復する動的潜在思考法である。 TaHは5つの挑戦的なベンチマークで推論のパフォーマンスを向上する。
論文参考訳（メタデータ） (2025-11-11T18:57:02Z)
Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning [0.0]
CoTプロンプト(Chain-of-Thought)は、大規模言語モデルにおいて複雑な推論を可能にする重要なテクニックである。 LEASH: Logit-Entropy Adaptive Stopping Heuristicは,有理数生成を適応的に停止する学習自由復号アルゴリズムである。
論文参考訳（メタデータ） (2025-11-06T18:43:16Z)
Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。 CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文参考訳（メタデータ） (2025-10-31T17:58:11Z)
Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか? i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文参考訳（メタデータ） (2025-10-01T17:08:59Z)
SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文参考訳（メタデータ） (2025-09-24T17:01:32Z)
Large Language Models Imitate Logical Reasoning, but at what Cost? [0.42970700836450487]
本稿では,18カ月間のフロンティア大言語モデルの推論能力を評価する。我々は,2023年12月,2024年9月,2025年6月の3つの主要モデルの精度を,真偽の質問に対して測定した。 2023年から2024年までのパフォーマンス向上は、シークレットの隠された連鎖によるものである。
論文参考訳（メタデータ） (2025-09-16T04:03:42Z)
VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。過度に考える傾向は、必然的に長い推論連鎖に繋がる。我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文参考訳（メタデータ） (2025-05-23T14:17:56Z)
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。 OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文参考訳（メタデータ） (2025-02-10T18:57:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。