論文の概要: Do Reasoning Models Ask Better Questions? A Formal Information-Theoretic Analysis on Multi-Turn LLM Games
- arxiv url: http://arxiv.org/abs/2601.17716v1
- Date: Sun, 25 Jan 2026 06:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.227953
- Title: Do Reasoning Models Ask Better Questions? A Formal Information-Theoretic Analysis on Multi-Turn LLM Games
- Title(参考訳): 推論モデルはより良い質問を問うか? マルチTurn LLMゲームにおける形式的情報理論解析
- Authors: Daniel M. Pedrozo, Telma W. de L. Soares, Bryan L. M. de Oliveira,
- Abstract要約: 大きな言語モデル(LLM)は多くのタスクで優れていますが、ユーザの要求のあいまいさを解決するための重要な能力に苦労しています。
本稿では,LLMがイエス/ノー質問を通じてどのように情報を収集するかを定量的に測定する多元対話フレームワークを提案する。
実験により, 評価モデルの中で, 明示的な推論能力を持つモデルでは, ターン当たりのIGが向上し, より少ないステップで解に到達することが実証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at many tasks but still struggle with a critical ability for LLM-based agents: asking good questions for resolving ambiguity in user requests. While prior work has explored information-seeking behavior through word games, existing benchmarks lack comprehensive evaluation frameworks that provide both final and intermediate signals based on Information Gain (IG). Moreover, they rarely provide systematic comparisons between models that use chain-of-thought reasoning and those that do not. We propose a multi-turn dialogue framework that quantitatively measures how effectively LLMs gather information through yes/no questions in a hierarchical knowledge graph environment. Our framework employs a triad of interacting LLM agents that ask questions, answer them, and update the hypothesis space. We adopt IG as the main metric, grounded in Shannon entropy, to assess query effectiveness at each turn and cumulatively. We instantiate our framework in a geographical Guess My City game setting organized in a five-level taxonomy and evaluate multiple LLM variants under fully and partially observable conditions, with and without Chain-of-Thought reasoning. Our experiments demonstrate that, among the evaluated models, the ones with explicit reasoning capabilities achieve higher IG per turn and reach solutions in fewer steps, particularly in partially observable settings. Analysis of reasoning traces reveals that smaller models compensate for limited capacity through more aggressive exploration of candidate questions, while larger models exhibit higher assertiveness in selecting optimal queries, generating candidates with greater potential IG.
- Abstract(参考訳): 大きな言語モデル(LLM)は多くのタスクで優れていますが、LLMベースのエージェントにとって重要な能力に苦戦しています。
これまでの研究では、単語ゲームによる情報探索の動作について検討されてきたが、既存のベンチマークでは、情報ゲイン(IG)に基づく最終信号と中間信号の両方を提供する包括的な評価フレームワークが欠如している。
さらに、チェーンオブソート推論を使用するモデルと、そうでないモデルとを体系的に比較することはめったにない。
階層的知識グラフ環境におけるイエス/ノー質問を通じてLLMがいかに効果的に情報を収集するかを定量的に測定する多元対話フレームワークを提案する。
我々のフレームワークは、質問をしたり、答えたり、仮説空間を更新したりするLLMエージェントを3つ採用しています。
IGをシャノンエントロピー(Shannon entropy)に基づく主測度として採用し,各ターンにおけるクエリの有効性を累積的に評価する。
我々は,5段階の分類で編成された地理的ギーズマイシティのゲーム設定において,我々の枠組みをインスタンス化し,完全かつ部分的に観察可能な条件下で複数のLSM変種を評価する。
実験により, 評価モデルの中で, 明示的な推論能力を持つモデルでは, ターン当たりのIGが向上し, より少ないステップ, 特に部分的に観測可能な設定で解に到達することが実証された。
推理トレースの分析では、より小さなモデルはより積極的な質問の探索を通じて限られた容量を補うが、大きなモデルは最適なクエリの選択において高い断定性を示し、より潜在的なIGを持つ候補を生成する。
関連論文リスト
- Exploring the Meta-level Reasoning of Large Language Models via a Tool-based Multi-hop Tabular Question Answering Task [0.0]
我々はメタレベルの推論とオブジェクトレベルの推論を区別し、より構造化されたアプローチを取る。
我々は,様々な国における地政学的指標の値に基づいて,新たな質問応答タスクを設計する。
LLMはタスクに対して優れたメタレベルの推論を示すが、タスク理解のいくつかの面では欠点がある。
論文 参考訳(メタデータ) (2026-01-12T16:29:21Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。
我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。
ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文 参考訳(メタデータ) (2025-05-01T18:12:30Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。