Fugu-MT 論文翻訳(概要): QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?

論文の概要: QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?

arxiv url: http://arxiv.org/abs/2503.22674v1
Date: Fri, 28 Mar 2025 17:58:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.795834
Title: QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?
Title（参考訳）: QuestBench: LLMは推論タスクで情報を取得するために適切な質問をすることができますか?
Authors: Belinda Z. Li, Been Kim, Zi Wang,
Abstract要約: 現実世界では、大きな言語モデルに対するクエリは、しばしば不特定であり、不足した情報を取得することでのみ解決可能である。クエストベンチ(QuestBench)は、少なくとも1つの質問で解ける未特定な推論タスクの集合である。
参考スコア（独自算出の注目度）: 17.854829489402324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, a large amount of work has focused on improving large language models' (LLMs') performance on reasoning benchmarks such as math and logic. However, past work has largely assumed that tasks are well-defined. In the real world, queries to LLMs are often underspecified, only solvable through acquiring missing information. We formalize this as a constraint satisfaction problem (CSP) with missing variable assignments. Using a special case of this formalism where only one necessary variable assignment is missing, we can rigorously evaluate an LLM's ability to identify the minimal necessary question to ask and quantify axes of difficulty levels for each problem. We present QuestBench, a set of underspecified reasoning tasks solvable by asking at most one question, which includes: (1) Logic-Q: Logical reasoning tasks with one missing proposition, (2) Planning-Q: PDDL planning problems with initial states that are partially-observed, (3) GSM-Q: Human-annotated grade school math problems with one missing variable assignment, and (4) GSME-Q: a version of GSM-Q where word problems are translated into equations by human annotators. The LLM is tasked with selecting the correct clarification question(s) from a list of options. While state-of-the-art models excel at GSM-Q and GSME-Q, their accuracy is only 40-50% on Logic-Q and Planning-Q. Analysis demonstrates that the ability to solve well-specified reasoning problems may not be sufficient for success on our benchmark: models have difficulty identifying the right question to ask, even when they can solve the fully specified version of the problem. Furthermore, in the Planning-Q domain, LLMs tend not to hedge, even when explicitly presented with the option to predict ``not sure.'' This highlights the need for deeper investigation into models' information acquisition capabilities.
Abstract（参考訳）: 近年,数学や論理学などの推論ベンチマークにおいて,大規模言語モデル(LLM)の性能向上に重点が置かれている。しかし、過去の研究はタスクが適切に定義されていると大半を仮定している。現実の世界では、LLMへのクエリは不特定であり、不足した情報を取得することでのみ解決可能である。これを制約満足度問題(CSP)として定式化する。必要な変数の割り当てが1つしか存在しないこの形式主義の特別な場合を用いて、各問題に対する難易度軸の問合せと定量化に必要最小限の質問を識別するLLMの能力を厳格に評価することができる。本稿では,(1)論理-Q:論理的推論タスク,(2)計画-Q:計画-Q:部分的に観察された初期状態のPDDL計画問題,(3)GSM-Q:人間の注釈付き小学校数学問題,(4)GSME-Q:単語問題を人間のアノテータによって方程式に変換するGSM-Qについて述べる。 LLMは、オプションのリストから正しい明確化質問(s)を選択することを任務とする。 GSM-QとGSME-Qの最先端モデルは優れているが、その精度はLogic-QとPlanning-Qでわずか40-50%である。モデルでは,問題を完全に特定したバージョンを解決できたとしても,適切な質問を特定するのが困難である。さらに、Planning-Q ドメインでは LLM がヘッジをしない傾向がある。「」これは、モデルの情報取得機能について、より深い調査の必要性を強調します。

関連論文リスト

Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文参考訳（メタデータ） (2024-06-19T18:26:19Z)
Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文参考訳（メタデータ） (2024-03-26T14:43:48Z)
Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs [102.37496443389203]
LGOT(Logic-Query-of-Thoughts)は知識グラフ推論と大規模言語モデルを組み合わせた最初の方法である。実験の結果,ChatGPTよりも20%向上した。
論文参考訳（メタデータ） (2024-03-17T17:01:45Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。各推論質問は、元の質問の意図を明確に示す。そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文参考訳（メタデータ） (2023-11-15T15:40:46Z)
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文参考訳（メタデータ） (2023-08-01T10:31:36Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。