論文の概要: Beyond Passive Critical Thinking: Fostering Proactive Questioning to Enhance Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2507.23407v1
- Date: Thu, 31 Jul 2025 10:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.518456
- Title: Beyond Passive Critical Thinking: Fostering Proactive Questioning to Enhance Human-AI Collaboration
- Title(参考訳): パッシブな批判的思考を超えて:人間とAIのコラボレーションを促進するための積極的な質問
- Authors: Ante Wang, Yujie Lin, Jingyao Liu, Suhang Wu, Hao Liu, Xinyan Xiao, Jinsong Su,
- Abstract要約: 提案手法では,モデルがユーザからの情報の欠落や明確化を積極的に求め,クエリをよりよく解決するパラダイムとして,積極的な批判的思考を導入する。
我々はGSM8Kに基づく2つの新しいベンチマークを提案し、不完全あるいは誤解を招く条件下での数学的推論を評価する。
我々は、強化学習がこの能力を大幅に改善できることを実証した。
- 参考スコア(独自算出の注目度): 40.74578217091183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critical thinking is essential for building robust AI systems, preventing them from blindly accepting flawed data or biased reasoning. However, prior work has primarily focused on passive critical thinking, where models simply reject problematic queries without taking constructive steps to address user requests. In this work, we introduce proactive critical thinking, a paradigm where models actively seek missing or clarifying information from users to resolve their queries better. To evaluate this capability, we present GSM-MC and GSM-MCE, two novel benchmarks based on GSM8K for assessing mathematical reasoning under incomplete or misleading conditions. GSM-MC contains 1,368 math problems with a key variable deliberately removed, requiring models to identify and request the missing information. GSM-MCE further increases the difficulty by introducing irrelevant details to test robustness against distractions. Experiments on Qwen3 and Llama series models show that, while these models excel in traditional reasoning tasks due to extensive post-training and inference-time scaling, they struggle with proactive critical thinking, especially smaller ones. However, we demonstrate that reinforcement learning (RL) can significantly improve this ability. Using our enhanced RL algorithm, we achieve substantial gains, boosting the Qwen3-1.7B's accuracy from 0.15% to 73.98% on GSM-MC. We hope this work advances models that collaborate more effectively with users in problem-solving through proactive critical thinking.
- Abstract(参考訳): 批判的思考は、堅牢なAIシステムを構築する上で不可欠であり、欠陥のあるデータやバイアスのある推論を盲目的に受け入れることを防ぐ。
しかし、これまでの作業は主に受動的批判的思考に焦点を当てており、モデルではユーザ要求に対処するための建設的なステップを踏むことなく、問題のあるクエリを単に拒否する。
そこで本研究では,モデルがユーザからの情報の欠落や明確化を積極的に求め,クエリをよりよく解決するパラダイムである,積極的批判的思考を紹介する。
この能力を評価するために,GSM8Kに基づく2つの新しいベンチマークであるGSM-MCとGSM-MCEを提案する。
GSM-MCには、キー変数を意図的に削除した1,368の数学問題が含まれており、不足した情報を識別して要求するモデルが必要である。
GSM-MCEは、障害に対する堅牢性をテストするために無関係な詳細を導入することで、さらに困難を増す。
Qwen3およびLlamaシリーズモデルの実験では、これらのモデルは訓練後の広範囲なスケーリングと推論時間スケーリングのために伝統的な推論タスクに優れているが、積極的な批判的思考、特により小さな思考に苦しむことが示されている。
しかし、強化学習(RL)により、この能力は大幅に向上することを示した。
改良されたRLアルゴリズムを用いることで、Qwen3-1.7Bの精度を GSM-MC で 0.15% から 73.98% に向上する。
この作業は、積極的な批判的思考を通じて問題解決において、ユーザとより効果的に協力するモデルを前進させることを願っています。
関連論文リスト
- CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。