Fugu-MT 論文翻訳(概要): Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring

論文の概要: Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring

arxiv url: http://arxiv.org/abs/2605.12398v1
Date: Tue, 12 May 2026 17:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:57.037104
Title: Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring
Title（参考訳）: Answer Plausibility Scoringによる大規模言語モデルの質問難解推定
Authors: Jamshid Mozafari, Bhawna Piryani, Adam Jatowt,
Abstract要約: 本稿では,Q-DAPSを提案する。Q-DAPS,Q-DAPS,Q-DAPS,Q-DAPS,Q-DAPS,Q-DAPS,Q-DAPS,Q-DAPS,Q-DAPS,Q-DAPS,Q-DAPS)。 Q-DAPSは,QA-QA,NQ,MuSiQue,QASCの4つの顕著なデータセットに対して体系的に評価する。
参考スコア（独自算出の注目度）: 25.62862937946865
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Estimating question difficulty is a critical component in evaluating and improving large language models (LLMs) for question answering (QA). Existing approaches often rely on readability formulas, retrieval-based signals, or popularity statistics, which may not fully capture the reasoning challenges posed to modern LLMs. In this paper, we introduce Q-DAPS (Question Difficulty based on Answer Plausibility Scores) method, a novel approach that estimates question difficulty by computing the entropy of plausibility scores over candidate answers. We systematically evaluate Q-DAPS across four prominent QA datasets-TriviaQA, NQ, MuSiQue, and QASC-demonstrating that it consistently outperforms baselines. Moreover, Q-DAPS shows strong robustness across hyperparameter variations and question types. Extensive ablation studies further show that Q-DAPS remains robust across different plausibility estimation paradigms, model sizes, and realistic settings. Human evaluations further confirm strong alignment between Q-DAPS's difficulty estimates and human judgments of question difficulty. Overall, Q-DAPS provides an interpretable, scalable, and bias-resilient approach to question difficulty estimation in modern QA systems.
Abstract（参考訳）: 質問の難易度の推定は、質問応答(QA)のための大規模言語モデル(LLM)の評価と改善において重要な要素である。既存のアプローチは、しばしば可読性公式、検索に基づく信号、あるいは人気統計に頼っているが、現代のLLMがもたらす理由を完全には捉えていない。本稿では,Q-DAPS (Question Difficulty based on Answer Plausibility Scores) 手法を提案する。我々は、TriviaQA、NQ、MuSiQue、QASC-demonstratingの4つの主要なQAデータセットのQ-DAPSを体系的に評価し、ベースラインを一貫して上回ることを示した。さらに、Q-DAPSはハイパーパラメータの変動や質問タイプに対して強い堅牢性を示す。広範囲にわたるアブレーション研究により、Q-DAPSは様々な可視性推定パラダイム、モデルサイズ、現実的な設定において頑健であることが示された。人間の評価は、Q-DAPSの難易度推定と質問難度判定との強い整合性をさらに確認する。全体として、Q-DAPSは、現代のQAシステムにおける難易度推定に疑問を呈する解釈可能で、スケーラブルで、バイアス耐性のアプローチを提供する。

関連論文リスト

Benchmarking Uncertainty Calibration in Large Language Model Long-Form Question Answering [7.1559850008795385]
大きな言語モデル(LLM)は質問回答(QA)設定で一般的に使用される。既存のUQアプローチは、科学的QAでは弱い検証が残っている。推論要求QAにおけるUQ指標を評価するための,最初の大規模ベンチマークを紹介する。
論文参考訳（メタデータ） (2026-01-30T20:02:34Z)
Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。 PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文参考訳（メタデータ） (2025-09-23T14:44:46Z)
UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文参考訳（メタデータ） (2025-08-25T01:07:59Z)
Uncertainty Quantification in Retrieval Augmented Question Answering [45.573346610161195]
本稿では,QAモデルが備える通路の有効性を推定することで,QAモデルの不確実性を定量化する。我々は、目標QAモデルの通過効率を予測するために軽量ニューラルネットワークを訓練し、単純な情報理論のメトリクスが解の正しさをある程度予測できる一方で、より高価なサンプリングベースの手法を効率的に近似または上回ることを示す。
論文参考訳（メタデータ） (2025-02-25T11:24:52Z)
PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文参考訳（メタデータ） (2024-02-17T01:56:19Z)
QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文参考訳（メタデータ） (2023-10-17T14:27:34Z)
Performance Prediction for Multi-hop Questions [7.388002745070808]
オープンドメイン型マルチホップ質問の性能を予測するための検索前手法であるmultHPを提案する。評価の結果,提案モデルが従来のシングルホップQPPモデルよりも優れた性能を示すことが示唆された。
論文参考訳（メタデータ） (2023-08-12T01:34:41Z)
Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文参考訳（メタデータ） (2023-04-06T15:32:35Z)
Evaluation of Question Answering Systems: Complexity of judging a natural language [3.4771957347698583]
質問応答システム(QA)は、自然言語処理(NLP)において最も重要かつ急速に発展している研究課題の一つである。本調査では,QAの枠組み,QAパラダイム,ベンチマークデータセット,およびQAシステムの定量的評価のための評価手法の体系的概要について述べる。
論文参考訳（メタデータ） (2022-09-10T12:29:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。