論文の概要: CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering
- arxiv url: http://arxiv.org/abs/2502.01523v1
- Date: Mon, 03 Feb 2025 17:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:17.742664
- Title: CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering
- Title(参考訳): CondAmbigQA: 条件付き曖昧な質問回答のためのベンチマークとデータセット
- Authors: Zongxi Li, Yang Li, Haoran Xie, S. Joe Qin,
- Abstract要約: 大きな言語モデル(LLM)は、曖昧な質問に直面した場合、質問応答(QA)タスクにおいて幻覚を起こす傾向にある。
我々は200の曖昧なクエリを持つベンチマークであるCondAmbigQA(CondAmbigQA)を紹介する。
我々の研究は、あいまいなQAタスクにおける「条件」の概念の先駆者であり、条件はあいまいさを解決する文脈的制約や仮定を表す。
- 参考スコア(独自算出の注目度): 6.297950040983263
- License:
- Abstract: Large language models (LLMs) are prone to hallucinations in question-answering (QA) tasks when faced with ambiguous questions. Users often assume that LLMs share their cognitive alignment, a mutual understanding of context, intent, and implicit details, leading them to omit critical information in the queries. However, LLMs generate responses based on assumptions that can misalign with user intent, which may be perceived as hallucinations if they misalign with the user's intent. Therefore, identifying those implicit assumptions is crucial to resolve ambiguities in QA. Prior work, such as AmbigQA, reduces ambiguity in queries via human-annotated clarifications, which is not feasible in real application. Meanwhile, ASQA compiles AmbigQA's short answers into long-form responses but inherits human biases and fails capture explicit logical distinctions that differentiates the answers. We introduce Conditional Ambiguous Question-Answering (CondAmbigQA), a benchmark with 200 ambiguous queries and condition-aware evaluation metrics. Our study pioneers the concept of ``conditions'' in ambiguous QA tasks, where conditions stand for contextual constraints or assumptions that resolve ambiguities. The retrieval-based annotation strategy uses retrieved Wikipedia fragments to identify possible interpretations for a given query as its conditions and annotate the answers through those conditions. Such a strategy minimizes human bias introduced by different knowledge levels among annotators. By fixing retrieval results, CondAmbigQA evaluates how RAG systems leverage conditions to resolve ambiguities. Experiments show that models considering conditions before answering improve performance by $20\%$, with an additional $5\%$ gain when conditions are explicitly provided. These results underscore the value of conditional reasoning in QA, offering researchers tools to rigorously evaluate ambiguity resolution.
- Abstract(参考訳): 大きな言語モデル(LLM)は、曖昧な質問に直面した場合、質問応答(QA)タスクにおいて幻覚を起こす傾向にある。
ユーザは、LLMが認知的アライメント、文脈、意図、暗黙的な詳細を相互に理解していると仮定し、クエリにおいて重要な情報を省略する。
しかし、LCMは、ユーザの意図に反する仮定に基づいて応答を生成し、ユーザの意図に反する場合には幻覚として認識される可能性がある。
したがって、これらの暗黙の仮定を特定することは、QAの曖昧さを解決するために不可欠である。
AmbigQAのような以前の作業は、実際のアプリケーションでは実現不可能な人間のアノテーションによる明確化を通じて、クエリのあいまいさを減らす。
一方、ASQAはAmbigQAの短い回答を長文の応答にコンパイルするが、人間のバイアスを継承し、答えを区別する明確な論理的区別を捉えない。
我々は200の曖昧なクエリと条件対応評価指標を備えたベンチマークであるCondAmbigQA(CondAmbigQA)を紹介する。
我々の研究は、あいまいなQAタスクにおける「条件」の概念の先駆者であり、条件はあいまいさを解決する文脈的制約や仮定を表す。
検索ベースのアノテーション戦略は、検索したウィキペディアの断片を使用して、あるクエリの可能な解釈をその条件として識別し、それらの条件を通じて回答を注釈付けする。
このような戦略は、アノテータ間の異なる知識レベルによって導入された人間のバイアスを最小限にする。
CondAmbigQAは、検索結果の修正により、RAGシステムがあいまいさを解決するために条件をどのように活用するかを評価する。
実験の結果, 回答前の条件を考慮したモデルでは, 条件が明示的に設定された場合, 性能が 20 % 向上し, 追加で 5 % 上昇することがわかった。
これらの結果はQAにおける条件推論の価値を強調し、あいまいさの解決を厳格に評価する研究ツールを提供する。
関連論文リスト
- Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - QUDSELECT: Selective Decoding for Questions Under Discussion Parsing [90.92351108691014]
Question Under Examination (QUD) は、暗黙の質問を用いて文間の会話関係を明らかにするための談話フレームワークである。
本稿では,QUD基準を考慮したQUD依存構造を選択的に復号する共同学習フレームワークであるQUDSELECTを紹介する。
提案手法は,人的評価において9%,自動評価において4%,最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-02T06:46:08Z) - S-EQA: Tackling Situational Queries in Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
まず, LLMの出力を包み込み, ユニークなコンセンサス・クエリと対応するコンセンサス・オブジェクトのデータセットを作成する, プロンプト・ジェネレート・評価手法を提案する。
本稿では,VQA(Visual Question Answering)において生成したオブジェクトコンセンサスからフレーム化されたクエリを用いて,状況に応じた質問に対して直接回答する際の精度を15.31%改善したことを報告した。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Mastering the ABCDs of Complex Questions: Answer-Based Claim
Decomposition for Fine-grained Self-Evaluation [9.776667356119352]
本稿では,質問を真偽のクレームに分解する手法であるABCDを提案する。
ABCDクレームを分解し, きめ細かい自己評価を行う。
GPT-3.5は、その答えがどの程度入力された質問の基準を満たすかを決定する能力を持っていることがわかった。
論文 参考訳(メタデータ) (2023-05-24T05:53:11Z) - ASQA: Factoid Questions Meet Long-Form Answers [35.11889930792675]
この研究は、解釈によって異なる正しい答えを持つ、あいまいな事実型問題に焦点を当てている。
曖昧な質問に対する回答は、複数の情報源からの事実情報を長文の要約にまとめるべきである。
我々は、この正確性の概念を用いて、ASQAのパフォーマンスの自動測定基準を定義します。
論文 参考訳(メタデータ) (2022-04-12T21:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。