論文の概要: Plantain: Plan-Answer Interleaved Reasoning
- arxiv url: http://arxiv.org/abs/2512.03176v1
- Date: Tue, 02 Dec 2025 19:22:12 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:56:59.54438
- Title: Plantain: Plan-Answer Interleaved Reasoning
- Title(参考訳): Plantain: プラン-Answerのインターリーブ推論
- Authors: Anthony Liang, Jonathan Berant, Adam Fisch, Abhimanyu Goyal, Kalpesh Krishna, Jacob Eisenstein,
- Abstract要約: 推論モデルは、しばしば、目に見える応答を生成する前に、かなりの時間を費やします。
本稿では,モデルが思考と対向する中間応答を交互に交互に扱うインターリーブド推論を提案する。
Plantainは、最初の中間応答がタスクを実行するための明示的なステップバイステッププランである場所です。
- 参考スコア(独自算出の注目度): 38.046123106961176
- License:
- Abstract: Reasoning models often spend a significant amount of time thinking before they generate a visible response. In the meantime, they do not give the user any hints as to whether their reasoning is on the right track, and do not give the user any recourse to stop and correct them if their reasoning is flawed. This creates a frustrating, but unfortunately common, experience: the user's time is wasted while the model reasons from a false premise that could have easily been corrected. In contrast, human speakers typically perform lightweight, incremental grounding acts to ensure that participants in the conversation are on the same page; here we ask if language models can learn to leverage a similar type of behavior? With this motivation, we propose interleaved reasoning (IR), in which the model alternates between thinking and surfacing intermediate responses, as an alternative to the standard "think-then-answer" approach. By providing useful information to the user earlier, IR reduces perceived latency, the time a user waits for an initial output, without compromising the quality of the final response. We further introduce a specialization of interleaved reasoning, Plantain (Plan-Thought-Answer Interleaving), where the first intermediate response is an explicit, step-by-step plan for executing the task. This plan-first strategy allows for user intervention and early feedback for subsequent reasoning steps. We demonstrate that Plantain yields an ~6% improvement in pass@1 across several challenging math reasoning and coding benchmarks, while reducing time-to-first-response by over 60% relative to think-then-answer baselines.
- Abstract(参考訳): 推論モデルは、しばしば、目に見える応答を生成する前に、かなりの時間を費やします。
その間、ユーザーは自分の推論が正しい軌道上にあるかどうかのヒントを示さず、もしその推論に欠陥があったら、それを停止して修正するリコースをユーザに与えない。
ユーザの時間を無駄にしながら、モデルが容易に修正可能な誤った前提から理由を導きます。
対照的に、人間の話者は通常、会話の参加者が同じページにいることを保証するために、軽量でインクリメンタルな接地行動を行います。
このモチベーションを生かしたインターリーブド推論 (IR) を提案し, モデルが思考と表向きの中間応答を交互に交互に行う手法を提案する。
先にユーザに対して有用な情報を提供することで、IRは、ユーザが初期出力を待つまでの遅延を、最終的な応答の品質を損なうことなく低減する。
さらに,第1中間応答は,タスクを実行するためのステップバイステップ計画である,インターリーブ推論,プランテン(Plan-Thought-Answer Interleaving)の専門化についても紹介する。
このプランファースト戦略は、ユーザの介入と、その後の推論ステップに対する早期フィードバックを可能にする。
Plantainは、いくつかの難解な数学推論とコーディングベンチマークに対して、パス@1を6%改善する一方、シンクザインアンサーのベースラインに対して、時間対ファーストのレスポンスを60%以上削減することを示した。
関連論文リスト
- Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Real-Time Progress Prediction in Reasoning Language Models [41.08450684104994]
本研究では,リアルタイムの進捗予測が実現可能かどうかを考察する。
我々は進捗を識別し、推論状態の分類のために線形プローブを訓練する。
次に、2段階の微調整手法を導入し、推論モデルにより進捗予測を生成する。
論文 参考訳(メタデータ) (2025-06-29T15:01:01Z) - Answer Convergence as a Signal for Early Stopping in Reasoning [7.51755942515969]
大型言語モデル(LLM)における思考の連鎖(CoT)の促進
提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
論文 参考訳(メタデータ) (2025-06-03T07:20:54Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。