Fugu-MT 論文翻訳(概要): CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering

論文の概要: CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering

arxiv url: http://arxiv.org/abs/2502.01523v2
Date: Wed, 10 Sep 2025 18:27:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-12 13:52:32.652959
Title: CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering
Title（参考訳）: CondAmbigQA: 条件付き曖昧な質問回答のためのベンチマークとデータセット
Authors: Zongxi Li, Yang Li, Haoran Xie, S. Joe Qin,
Abstract要約: Conditional Ambiguous Question-Answering (CondAmbigQA) は2000の曖昧なクエリと条件対応評価指標からなるベンチマークである。実験により、回答前の条件を考慮したモデルでは解答精度が11.75%向上し、条件が明示された場合にさらに7.15%向上することが示されている。
参考スコア（独自算出の注目度）: 9.50840225852638
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Users often assume that large language models (LLMs) share their cognitive alignment of context and intent, leading them to omit critical information in question-answering (QA) and produce ambiguous queries. Responses based on misaligned assumptions may be perceived as hallucinations. Therefore, identifying possible implicit assumptions is crucial in QA. To address this fundamental challenge, we propose Conditional Ambiguous Question-Answering (CondAmbigQA), a benchmark comprising 2,000 ambiguous queries and condition-aware evaluation metrics. Our study pioneers "conditions" as explicit contextual constraints that resolve ambiguities in QA tasks through retrieval-based annotation, where retrieved Wikipedia fragments help identify possible interpretations for a given query and annotate answers accordingly. Experiments demonstrate that models considering conditions before answering improve answer accuracy by 11.75%, with an additional 7.15% gain when conditions are explicitly provided. These results highlight that apparent hallucinations may stem from inherent query ambiguity rather than model failure, and demonstrate the effectiveness of condition reasoning in QA, providing researchers with tools for rigorous evaluation.
Abstract（参考訳）: ユーザーは、大きな言語モデル(LLM)が文脈と意図の認知的アライメントを共有し、質問応答(QA)において重要な情報を省略し、あいまいなクエリを生成すると仮定することが多い。誤った仮定に基づく反応は幻覚と見なされることがある。したがって、QAでは暗黙の仮定を特定することが不可欠である。この根本的な課題に対処するために、2000の曖昧なクエリと条件対応評価指標からなるベンチマークであるCondAmbigQA(CondAmbigQA)を提案する。本研究は,検索したウィキペディアの断片が与えられたクエリの可能な解釈を識別し,それに応じてアノテートする,検索ベースのアノテーションを用いて,QAタスクの曖昧さを解消する,明示的な文脈制約として「条件」を開拓した。実験により、回答前の条件を考慮したモデルでは解答精度が11.75%向上し、条件が明示された場合にさらに7.15%向上することが示されている。これらの結果は, 明らかな幻覚は, モデル故障というよりも, 問合せのあいまいさに起因している可能性を示し, 条件推論の有効性を実証し, 厳密な評価を行うためのツールを研究者に提供する。

関連論文リスト

MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs [15.278241998033822]
大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
論文参考訳（メタデータ） (2025-06-18T07:49:13Z)
CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-13T17:34:35Z)
Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文参考訳（メタデータ） (2024-11-11T18:58:38Z)
QUDSELECT: Selective Decoding for Questions Under Discussion Parsing [90.92351108691014]
Question Under Examination (QUD) は、暗黙の質問を用いて文間の会話関係を明らかにするための談話フレームワークである。本稿では,QUD基準を考慮したQUD依存構造を選択的に復号する共同学習フレームワークであるQUDSELECTを紹介する。提案手法は,人的評価において9%,自動評価において4%,最先端のベースラインモデルよりも優れていた。
論文参考訳（メタデータ） (2024-08-02T06:46:08Z)
S-EQA: Tackling Situational Queries in Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。まず, LLMの出力を包み込み, ユニークなコンセンサス・クエリと対応するコンセンサス・オブジェクトのデータセットを作成する, プロンプト・ジェネレート・評価手法を提案する。本稿では,VQA(Visual Question Answering)において生成したオブジェクトコンセンサスからフレーム化されたクエリを用いて,状況に応じた質問に対して直接回答する際の精度を15.31%改善したことを報告した。
論文参考訳（メタデータ） (2024-05-08T00:45:20Z)
Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文参考訳（メタデータ） (2024-04-18T07:59:53Z)
Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文参考訳（メタデータ） (2023-11-16T00:18:50Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文参考訳（メタデータ） (2023-07-08T04:32:17Z)
ASQA: Factoid Questions Meet Long-Form Answers [35.11889930792675]
この研究は、解釈によって異なる正しい答えを持つ、あいまいな事実型問題に焦点を当てている。曖昧な質問に対する回答は、複数の情報源からの事実情報を長文の要約にまとめるべきである。我々は、この正確性の概念を用いて、ASQAのパフォーマンスの自動測定基準を定義します。
論文参考訳（メタデータ） (2022-04-12T21:58:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。