論文の概要: Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam
- arxiv url: http://arxiv.org/abs/2603.04454v1
- Date: Fri, 27 Feb 2026 19:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.894973
- Title: Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam
- Title(参考訳): Answer-Freeコンテキストによる問合せの曖昧化:Humanityの最後のエクストリームにおける性能の2倍化
- Authors: Michael Majurski, Cynthia Matuszek,
- Abstract要約: 本研究は,モデルのコンテキストウィンドウにおける背景背景情報の質が精度に与える影響について検討する。
動的コンテキスト構築(RAG)とクエリ書き換えを組み合わせることで、問合せのあいまいさが減少し、精度が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 6.1512837277903785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How carefully and unambiguously a question is phrased has a profound impact on the quality of the response, for Language Models (LMs) as well as people. While model capabilities continue to advance, the interplay between grounding context and query formulation remains under-explored. This work investigates how the quality of background grounding information in a model's context window affects accuracy. We find that combining well-grounded dynamic context construction (i.e, RAG) with query rewriting reduces question ambiguity, resulting in significant accuracy gains. Given a user question with associated answer-free grounding context, rewriting the question to reduce ambiguity produces benchmark improvements without changing the answer itself, even compared to prepending that context before the question. Using \texttt{gpt-oss-20b} to rewrite a subset of Humanity's Last Exam using answer-free grounding context improves \texttt{gpt-5-mini} accuracy from 0.14 to 0.37. We demonstrate that this accuracy improvement cannot be fully recovered just through prompting at inference time; rather, distinct rewriting and answering phases are required. Code and data are available at https://github.com/mmajurski/lm-rewrite-uplift
- Abstract(参考訳): 質問がいかに慎重に、曖昧に表現されるかは、人だけでなく言語モデル(LM)にとっても、応答の品質に大きな影響を与えます。
モデル能力は進歩を続けているが、基盤となるコンテキストとクエリの定式化との相互作用は未解明のままである。
本研究は,モデルのコンテキストウィンドウにおける背景背景情報の質が精度に与える影響について検討する。
動的コンテキスト構築(RAG)とクエリ書き換えを組み合わせることで、問合せのあいまいさが低減され、精度が大幅に向上することがわかった。
ユーザの質問に関連する回答のない接地コンテキストが与えられた場合、あいまいさを減らすために質問を書き直すと、回答自体を変更することなくベンチマークが改善される。
答えのない接地コンテキストを用いて、HumanityのLast Examのサブセットを書き直すために \texttt{gpt-oss-20b} を使用すると、 \texttt{gpt-5-mini} の精度は 0.14 から 0.37 に向上する。
我々は、この精度の改善が推論時刻のプロンプトによってのみ完全に回復できないことを実証する。
コードとデータはhttps://github.com/mmajurski/lm-rewrite-upliftで公開されている。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Sufficient Context: A New Lens on Retrieval Augmented Generation Systems [19.238772793096473]
LLMをコンテキストで拡張すると、多くのアプリケーションのパフォーマンスが向上する。
我々は、クエリに答える十分な情報を持つインスタンスを分類すると共に、十分なコンテキストという新しい概念を開発する。
文脈充足度に基づく誤りの階層化により,コンテキストが十分であれば,より高いベースライン性能を持つ大規模モデルの方がクエリの応答に優れることがわかった。
論文 参考訳(メタデータ) (2024-11-09T02:13:14Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Characterizing LLM Abstention Behavior in Science QA with Context Perturbations [13.897212714309548]
本研究では,LLMが不十分あるいは誤った文脈で科学的な疑問に答えることを禁じる能力について検討する。
性能はモデルによって大きく異なり、提供されたコンテキストの種類や質問タイプによっても大きく異なることを示す。
以上の結果から,QAデータセットの設計と評価において,モデル棄却の正しさと下流への影響をより効果的に評価するために,変更が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-04-18T18:26:43Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - QRelScore: Better Evaluating Generated Questions with Deeper
Understanding of Context-aware Relevance [54.48031346496593]
我々は、$underlinetextbfRel$evance評価指標のコンテキスト対応評価指標である$textbfQRelScore$を提案する。
BERTやGPT2のような既製の言語モデルに基づいて、QRelScoreは単語レベルの階層マッチングと文レベルのプロンプトベースの生成の両方を採用している。
既存の測定値と比較すると、QRelScoreは人間による判断と高い相関性を持ちながら、敵のサンプルに対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-04-29T07:39:53Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。