論文の概要: Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance
- arxiv url: http://arxiv.org/abs/2602.11938v1
- Date: Thu, 12 Feb 2026 13:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.837567
- Title: Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance
- Title(参考訳): チャンピオンシップで最も裕福なクラブは誰か? 未特定質問の検出と書き直しによるQAパフォーマンスの向上
- Authors: Yunchong Huang, Gianni Barlacchi, Sandro Pezzelle,
- Abstract要約: 大規模言語モデル(LLM)は、適切な質問に対してうまく機能するが、標準的なQA(QA)ベンチマークは解決には程遠い。
このギャップは、部分的には未特定な質問によるものであり、追加のコンテキストなしでは解釈が一意に決定できないクエリである、と我々は主張する。
- 参考スコア(独自算出の注目度): 6.511402661783843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) perform well on well-posed questions, yet standard question-answering (QA) benchmarks remain far from solved. We argue that this gap is partly due to underspecified questions - queries whose interpretation cannot be uniquely determined without additional context. To test this hypothesis, we introduce an LLM-based classifier to identify underspecified questions and apply it to several widely used QA datasets, finding that 16% to over 50% of benchmark questions are underspecified and that LLMs perform significantly worse on them. To isolate the effect of underspecification, we conduct a controlled rewriting experiment that serves as an upper-bound analysis, rewriting underspecified questions into fully specified variants while holding gold answers fixed. QA performance consistently improves under this setting, indicating that many apparent QA failures stem from question underspecification rather than model limitations. Our findings highlight underspecification as an important confound in QA evaluation and motivate greater attention to question clarity in benchmark design.
- Abstract(参考訳): 大規模言語モデル(LLM)は、適切な質問に対してうまく機能するが、標準的なQA(QA)ベンチマークは解決には程遠い。
このギャップは、部分的には未特定な質問によるものであり、追加のコンテキストなしでは解釈が一意に決定できないクエリである、と我々は主張する。
この仮説を検証するために, LLM を用いた分類器を導入し, 広く使用されている複数のQAデータセットに適用し, ベンチマーク質問の 16% から 50% 以上は未特定であり, LLM の精度は著しく低下していることを確認した。
不特定性の影響を分離するために、上行解析として機能する制御された書き換え実験を行い、不特定質問を金の答えを固定しながら、完全に特定された変種に書き換える。
QAパフォーマンスは、この設定下で一貫して改善され、多くの明らかなQA障害は、モデルの制限ではなく、不特定性の問題に起因することを示している。
本研究は,QA評価における不明瞭さを重要視し,ベンチマーク設計における疑問への注意を喚起するものである。
関連論文リスト
- Inferential Question Answering [67.54465021408724]
新しいタスクであるInferential QAを導入します。これは、答えをサポートするパスから答えを推測するためにモデルに挑戦するものです。
そこで本研究では,7,401問と2.4M節からなるQUITデータセットを構築した。
我々は,従来のQAタスクに有効な手法が推論QAに苦しむことを示し,レトリバーは性能が低下し,リランカーは利得が制限され,微調整は不整合の改善をもたらすことを示した。
論文 参考訳(メタデータ) (2026-02-01T14:02:43Z) - Benchmarking Uncertainty Calibration in Large Language Model Long-Form Question Answering [7.1559850008795385]
大きな言語モデル(LLM)は質問回答(QA)設定で一般的に使用される。
既存のUQアプローチは、科学的QAでは弱い検証が残っている。
推論要求QAにおけるUQ指標を評価するための,最初の大規模ベンチマークを紹介する。
論文 参考訳(メタデータ) (2026-01-30T20:02:34Z) - Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering [9.50840225852638]
Conditional Ambiguous Question-Answering (CondAmbigQA) は2000の曖昧なクエリと条件対応評価指標からなるベンチマークである。
実験により、回答前の条件を考慮したモデルでは解答精度が11.75%向上し、条件が明示された場合にさらに7.15%向上することが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:01:51Z) - Characterizing LLM Abstention Behavior in Science QA with Context Perturbations [13.897212714309548]
本研究では,LLMが不十分あるいは誤った文脈で科学的な疑問に答えることを禁じる能力について検討する。
性能はモデルによって大きく異なり、提供されたコンテキストの種類や質問タイプによっても大きく異なることを示す。
以上の結果から,QAデータセットの設計と評価において,モデル棄却の正しさと下流への影響をより効果的に評価するために,変更が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-04-18T18:26:43Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - ASQA: Factoid Questions Meet Long-Form Answers [35.11889930792675]
この研究は、解釈によって異なる正しい答えを持つ、あいまいな事実型問題に焦点を当てている。
曖昧な質問に対する回答は、複数の情報源からの事実情報を長文の要約にまとめるべきである。
我々は、この正確性の概念を用いて、ASQAのパフォーマンスの自動測定基準を定義します。
論文 参考訳(メタデータ) (2022-04-12T21:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。