論文の概要: CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2605.20075v1
- Date: Tue, 19 May 2026 16:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.524492
- Title: CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning
- Title(参考訳): CopT: 汎用的およびエージェント的推論のための継続的空間との対照的なオン・ポリティクス
- Authors: Dachuan Shi, Hanlin Zhu, Xiangchi Yuan, Wanjia Zhao, Kejing Xia, Wen Xiao, Wenke Lee,
- Abstract要約: CopTは、通常の思考と回答の順序を逆転する、改訂された推論パイプラインである。
CopTは、ドラフト回答を付与し、その後、独自のドラフト回答で条件付きで、後続のオンライン思考を起動する。
CopTはピーク精度を最大23%改善し、トークン使用量を最大57%削減する。
- 参考スコア(独自算出の注目度): 22.944748148277146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) is a standard approach for eliciting reasoning capabilities from large language models (LLMs). However, the common CoT paradigm treats thinking as a prerequisite for answering, which can delay access to plausible answers and incur unnecessary token costs even when the model is able to identify an answer before extended thinking, a behavior known as performative reasoning. In this paper, we introduce CopT, a reformulated reasoning pipeline that reverses the usual order of thinking and answering. Instead of thinking before answering, CopT first elicits a draft answer and then invokes subsequent on-policy thinking conditioned on its own draft answer for reflection and correction. To assess whether the draft answer should be trusted, CopT recasts continuous embeddings as inference-time contrastive verifiers. Specifically, it contrasts the model's support for the same generated tokens under discrete-token inputs and continuous-embedding inputs, yielding a sequence-level reverse KL estimator for answer reliability. Our analysis shows that under certain assumptions, the expected estimate equals the mutual information between the unresolved latent state and the emitted answer token, explaining why it captures answer-relevant uncertainty rather than arbitrary uncertainty in the latent state. When the answer is deemed insufficiently reliable, CopT performs further on-policy thinking, where a second KL estimator dynamically controls draft-answer visibility, preserving useful partial information while reducing the risk of being misled by unreliable content. Across mathematics, coding, and agentic reasoning tasks, CopT improves peak accuracy by up to 23% and reduces token usage by up to 57% at comparable or higher accuracy, without any additional training. The code is available at https://github.com/sdc17/CopT.
- Abstract(参考訳): CoT(Chain-of-Thought)は、大規模言語モデル(LLM)から推論能力を引き出すための標準的なアプローチである。
しかし、一般的なCoTパラダイムは、思考を答えの前提条件として扱い、これは、モデルが拡張思考の前に答えを特定できる場合であっても、妥当な答えへのアクセスを遅らせたり、不要なトークンコストを発生させる可能性がある。
本稿では,通常の思考と回答の順序を逆転する改良された推論パイプラインであるCopTを紹介する。
答える前に考える代わりに、CopTはまずドラフト回答を導き、その後、リフレクションと修正のために独自のドラフト回答に条件付けされた後続のオンライン思考を起動する。
ドラフト回答が信頼されるべきかどうかを評価するため、CopTは連続的な埋め込みを推論時コントラスト検証として再キャストする。
具体的には、離散的な入力と連続埋め込み入力の下で同じ生成されたトークンに対するモデルによるサポートとは対照的であり、応答信頼性のためのシーケンスレベルの逆KL推定器が生成される。
分析の結果, ある仮定の下では, 予測された推定値が未解決の潜伏状態と出力された応答トークンの相互情報と等しいことが示され, 潜伏状態における任意の不確実性ではなく, 応答関連不確実性を取得する理由が説明された。
回答が不十分であると判断された場合、第2のKL推定器が動的にドラフト・アンサー・ビジュアライゼーションを制御し、信頼性の低いコンテンツに誤解されるリスクを低減し、有用な部分情報の保存を行う。
数学、コーディング、エージェント推論タスク全体にわたって、CopTはピーク精度を最大23%改善し、追加のトレーニングなしでトークン使用量を最大57%削減する。
コードはhttps://github.com/sdc17/CopT.comで入手できる。
関連論文リスト
- Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models [17.588873255093596]
長鎖の思考(CoT)を生成することでLRM(Large Reasoning Models)の性能が向上する
LRMは、しばしば過度に考え、ソリューションがすでに安定し、トークンを無駄にし、レイテンシを増大した後も、推論を続けます。
本稿では,軽量冗長検出器と応答レベル検証を組み合わせたプラグアンドプレイフレームワークPUMAを提案する。
論文 参考訳(メタデータ) (2026-05-17T22:04:11Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models [15.95627037350657]
CoT (Explicit Chain-of-Thought) 計算はトークンレベルのトレースを内部化することによって高い推論コストを発生させる。
固定応答テンプレートを強制せずに、明示的なCoTをコンパクトなポーズトークンに圧縮するフレキシブルなフレームワークであるSPOTを提案する。
推論ベンチマークの実験では、SPOTは生成したトークンを37.5%削減しながら、平均2.3ポイントの精度を向上している。
論文 参考訳(メタデータ) (2026-03-06T12:34:27Z) - Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering [5.427346259545067]
CoT(Chain-of- Thought)は、大規模言語モデルにおける推論機能のスケーリングの中心となっている。
命令調整モデルがCoTを生成する前に解答を決定する場合が多いことを示す。
論文 参考訳(メタデータ) (2026-03-02T04:33:55Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Language Model Uncertainty Quantification with Attention Chain [9.093726246465117]
大規模言語モデル(LLM)の予測の不確実性は、その答えの信頼性を判断するために重要である。
UQACは,推論空間をトラクタブルなサイズに縮小し,限界化を実現するための効率的な手法である。
先進的なオープンソース LLM を用いた複数の推論ベンチマークにおいて,UQAC の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-24T21:43:47Z) - Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。