論文の概要: Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information
- arxiv url: http://arxiv.org/abs/2508.11252v1
- Date: Fri, 15 Aug 2025 06:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.76408
- Title: Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information
- Title(参考訳): 数学のクイズを解くことを超えて: 情報を求める大規模推論モデルの能力を評価する
- Authors: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei,
- Abstract要約: 大規模推論モデル (LRM) は数学において顕著な問題解決能力を示している。
多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。
このデータセットに基づいて, LRMの系統的評価を行ったところ, 積極的に情報を求めることができないことが明らかとなった。
- 参考スコア(独自算出の注目度): 21.562453754113072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new dataset consisting of two types of incomplete problems with diverse contexts. Based on the dataset, our systematical evaluation of LRMs reveals their inability in proactively asking for information. In addition, we uncover the behaviors related to overthinking and hallucination of LRMs, and highlight the potential and challenges of supervised fine-tuning in learning such ability. We hope to provide new insights in developing LRMs with genuine intelligence, rather than just solving problems.
- Abstract(参考訳): 大規模推論モデル (LRM) は、よく定義された問題に対してのみ既存のベンチマークで評価されるように、数学において顕著な問題解決能力を示した。
しかし、このような評価設定は、真の知的エージェントが問題(数学クイズソルバとして)を解くだけでなく、問題が不十分な場合に情報を尋ねることも可能であり、ユーザの要求に応答する活動を可能にするため、重要なギャップとなっている。
このようなギャップを埋めるために,多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。
このデータセットに基づいて, LRMの系統的評価を行ったところ, 積極的に情報を求めることができないことが明らかとなった。
さらに,LRMの過度な思考と幻覚に関連する行動を明らかにするとともに,そのような能力の学習において微調整を指導する可能性や課題を明らかにする。
我々は、単に問題を解決するのではなく、真の知性でLEMを開発するための新たな洞察を提供したいと思っています。
関連論文リスト
- Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research [0.6286531904189063]
AIの監督を拡大するアプローチには、議論、批判、証明者検証ゲームが含まれる。
FindTheFlawsは医学、数学、科学、コーディング、ロジバン語にまたがる5つの多様なデータセットからなる。
我々は、フロンティアモデルのクオリティ能力を評価し、スケーラブルな監視実験に活用できる幅広い性能を観察する。
論文 参考訳(メタデータ) (2025-03-29T06:38:30Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。
本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文 参考訳(メタデータ) (2024-06-26T13:02:35Z) - Case-Based Reasoning Approach for Solving Financial Question Answering [5.10832476049103]
FinQAは財務文書の数値推論データセットを導入した。
ケースベース推論(CBR)を用いた数値推論問題に対する新しいアプローチを提案する。
本モデルでは,質問に対処する関連事例を検索し,検索した事例と文脈情報に基づいて回答を生成する。
論文 参考訳(メタデータ) (2024-05-18T10:06:55Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory
Information [11.299785330182004]
言語モデル(LM)は微調整なしに複雑な推論能力を示す。
本稿では,情報源の選好によって導かれる矛盾した情報による推論の問題を,デファシブル推論の古典的問題として定式化する。
我々は,ボードゲームQA上で様々なLMをベンチマークし,その結果,この問題における最先端のLMの推論能力に重大なギャップがあることを明らかにした。
論文 参考訳(メタデータ) (2023-06-13T17:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。