Fugu-MT 論文翻訳(概要): Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

論文の概要: Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

arxiv url: http://arxiv.org/abs/2508.11252v1
Date: Fri, 15 Aug 2025 06:42:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-18 14:51:23.76408
Title: Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information
Title（参考訳）: 数学のクイズを解くことを超えて: 情報を求める大規模推論モデルの能力を評価する
Authors: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei,
Abstract要約: 大規模推論モデル (LRM) は数学において顕著な問題解決能力を示している。多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。このデータセットに基づいて, LRMの系統的評価を行ったところ, 積極的に情報を求めることができないことが明らかとなった。
参考スコア（独自算出の注目度）: 21.562453754113072
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new dataset consisting of two types of incomplete problems with diverse contexts. Based on the dataset, our systematical evaluation of LRMs reveals their inability in proactively asking for information. In addition, we uncover the behaviors related to overthinking and hallucination of LRMs, and highlight the potential and challenges of supervised fine-tuning in learning such ability. We hope to provide new insights in developing LRMs with genuine intelligence, rather than just solving problems.
Abstract（参考訳）: 大規模推論モデル (LRM) は、よく定義された問題に対してのみ既存のベンチマークで評価されるように、数学において顕著な問題解決能力を示した。しかし、このような評価設定は、真の知的エージェントが問題(数学クイズソルバとして)を解くだけでなく、問題が不十分な場合に情報を尋ねることも可能であり、ユーザの要求に応答する活動を可能にするため、重要なギャップとなっている。このようなギャップを埋めるために,多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。このデータセットに基づいて, LRMの系統的評価を行ったところ, 積極的に情報を求めることができないことが明らかとなった。さらに,LRMの過度な思考と幻覚に関連する行動を明らかにするとともに,そのような能力の学習において微調整を指導する可能性や課題を明らかにする。我々は、単に問題を解決するのではなく、真の知性でLEMを開発するための新たな洞察を提供したいと思っています。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。 SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文参考訳（メタデータ） (2025-06-10T17:02:00Z)
FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research [0.6286531904189063]
AIの監督を拡大するアプローチには、議論、批判、証明者検証ゲームが含まれる。 FindTheFlawsは医学、数学、科学、コーディング、ロジバン語にまたがる5つの多様なデータセットからなる。我々は、フロンティアモデルのクオリティ能力を評価し、スケーラブルな監視実験に活用できる幅広い性能を観察する。
論文参考訳（メタデータ） (2025-03-29T06:38:30Z)
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文参考訳（メタデータ） (2024-06-26T13:02:35Z)
Case-Based Reasoning Approach for Solving Financial Question Answering [5.10832476049103]
FinQAは財務文書の数値推論データセットを導入した。ケースベース推論(CBR)を用いた数値推論問題に対する新しいアプローチを提案する。本モデルでは,質問に対処する関連事例を検索し,検索した事例と文脈情報に基づいて回答を生成する。
論文参考訳（メタデータ） (2024-05-18T10:06:55Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory Information [11.299785330182004]
言語モデル(LM)は微調整なしに複雑な推論能力を示す。本稿では,情報源の選好によって導かれる矛盾した情報による推論の問題を,デファシブル推論の古典的問題として定式化する。我々は,ボードゲームQA上で様々なLMをベンチマークし,その結果,この問題における最先端のLMの推論能力に重大なギャップがあることを明らかにした。
論文参考訳（メタデータ） (2023-06-13T17:39:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。