論文の概要: Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers
- arxiv url: http://arxiv.org/abs/2601.22139v1
- Date: Thu, 29 Jan 2026 18:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.101069
- Title: Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers
- Title(参考訳): 質問中の推論:受動的解から積極的問合せへの大言語モデルの変換
- Authors: Xin Chen, Feng Jiang, Yiqian Zhang, Hardy Chen, Shuo Yan, Wenya Xie, Min Yang, Shujian Huang,
- Abstract要約: Proactive Interactive Reasoningは、大規模言語モデルからProactive Inquirerに変換する。
PIRは、ユーザと直接対話することで、前提レベルと意図レベルの不確実性を目標とします。
数学的推論、コード生成、文書編集の実験は、PIRが強いベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 41.58256327940237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fundamentally limited by a \emph{blind self-thinking} paradigm: performing extensive internal reasoning even when critical information is missing or ambiguous. We propose Proactive Interactive Reasoning (PIR), a new reasoning paradigm that transforms LLMs from passive solvers into proactive inquirers that interleave reasoning with clarification. Unlike existing search- or tool-based frameworks that primarily address knowledge uncertainty by querying external environments, PIR targets premise- and intent-level uncertainty through direct interaction with the user. PIR is implemented via two core components: (1) an uncertainty-aware supervised fine-tuning procedure that equips models with interactive reasoning capability, and (2) a user-simulator-based policy optimization framework driven by a composite reward that aligns model behavior with user intent. Extensive experiments on mathematical reasoning, code generation, and document editing demonstrate that PIR consistently outperforms strong baselines, achieving up to 32.70\% higher accuracy, 22.90\% higher pass rate, and 41.36 BLEU improvement, while reducing nearly half of the reasoning computation and unnecessary interaction turns. Further reliability evaluations on factual knowledge, question answering, and missing-premise scenarios confirm the strong generalization and robustness of PIR. Model and code are publicly available at: \href{https://github.com/SUAT-AIRI/Proactive-Interactive-R1}
- Abstract(参考訳): Reasoning-oriented Large Language Models (LLMs) は Chain-of-Thought (CoT) によって顕著な進歩を遂げているが、基本的には 'emph{blind self-thinking' パラダイムによって制限されている。
本稿では,PLMを受動的解法から,論理を明確化して解釈する能動的問合せへと変換する新しい推論パラダイムであるProactive Interactive Reasoning(PIR)を提案する。
外部環境に問い合わせることによる知識の不確実性に主に対処する既存の検索やツールベースのフレームワークとは異なり、PIRはユーザとの直接対話を通じて前提および意図レベルの不確実性をターゲットにしている。
PIRは,(1)対話的推論能力を持つモデルに対応する不確実性を考慮した微調整手順,(2)モデル動作をユーザ意図と整合させる複合報酬によって駆動されるユーザシミュレータベースのポリシー最適化フレームワーク,の2つのコアコンポーネントを介して実装される。
数学的推論、コード生成、文書編集に関する大規模な実験により、PIRは強いベースラインを一貫して上回り、32.70 %の精度、22.90 %のパスレート、41.36 BLEUの改善を達成した。
PIRの強い一般化とロバスト性を確認するために, 事実知識, 質問応答, 不足前提シナリオのさらなる信頼性評価を行った。
モデルとコードは以下で公開されている。 \href{https://github.com/SUAT-AIRI/Proactive-Interactive-R1}
関連論文リスト
- RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Unbiased Reasoning for Knowledge-Intensive Tasks in Large Language Models via Conditional Front-Door Adjustment [14.539964360184086]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示しているが、知識集約的なタスクではうまく機能しない。
本稿では,クエリと応答間の因果効果の偏りのない推定を可能にする,新しい因果的プロンプトフレームワークである条件付きフロントドアプロンプト(CFD-Prompting)を提案する。
論文 参考訳(メタデータ) (2025-08-23T05:52:39Z) - Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。