論文の概要: DEEPAMBIGQA: Ambiguous Multi-hop Questions for Benchmarking LLM Answer Completeness
- arxiv url: http://arxiv.org/abs/2511.01323v1
- Date: Mon, 03 Nov 2025 08:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.171897
- Title: DEEPAMBIGQA: Ambiguous Multi-hop Questions for Benchmarking LLM Answer Completeness
- Title(参考訳): DEEPAMBIGQA: LLM Answer Completenessのベンチマークのための曖昧なマルチホップ質問
- Authors: Jiabao Ji, Min Li, Priyanshu Kumar, Shiyu Chang, Saloni Potdar,
- Abstract要約: マルチホップ推論を必要とする3,600の質問のデータセットを構築し、その半数が明確な名前の曖昧さを解決する。
実験の結果、最先端の GPT-5 でさえ不完全な答えを示し、曖昧な質問では 0.13 に、曖昧でない質問では 0.21 にしか達していないことが明らかになった。
- 参考スコア(独自算出の注目度): 28.51983430422024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with integrated search tools show strong promise in open-domain question answering (QA), yet they often struggle to produce complete answer set to complex questions such as Which actor from the film Heat won at least one Academy Award?, which requires (1) distinguishing between multiple films sharing the same title and (2) reasoning across a large set of actors to gather and integrate evidence. Existing QA benchmarks rarely evaluate both challenges jointly. To address this, we introduce DeepAmbigQAGen, an automatic data generation pipeline that constructs QA tasks grounded in text corpora and linked knowledge graph, generating natural and verifiable questions that systematically embed name ambiguity and multi-step reasoning. Based on this, we build DeepAmbigQA, a dataset of 3,600 questions requiring multi-hop reasoning and half of them explicit name ambiguity resolving. Experiments reveal that, even state-of-the-art GPT-5 show incomplete answers, achieving only 0.13 exact match on ambiguous questions and 0.21 on non-ambiguous questions. These findings highlight the need for more robust QA systems aimed at information gathering and answer completeness.
- Abstract(参考訳): 大きな言語モデル (LLM) と統合検索ツールは、オープンドメイン質問応答 (QA) において強い将来性を示しているが、映画『ヒート』のどの俳優がアカデミー賞を少なくとも1回受賞したかのような複雑な質問に対する完全な回答セットを作成するのに苦労することが多い。
これは(1)同一のタイトルを共有する複数の映画と(2)証拠を収集して統合するために多数の俳優の推論を区別することを必要とする。
既存のQAベンチマークでは、両方の課題を共同で評価することはめったにない。
この問題を解決するために,テキストコーパスとリンク知識グラフをベースとしたQAタスクを構築する自動データ生成パイプラインであるDeepAmbigQAGenを導入する。
これに基づいて、DeepAmbigQAという、マルチホップ推論を必要とする3600の質問のデータセットを構築します。
実験の結果、最先端の GPT-5 でさえ不完全な答えを示し、曖昧な質問では 0.13 に、曖昧でない質問では 0.21 にしか達していないことが明らかになった。
これらの知見は、情報収集と回答完全性を目的とした、より堅牢なQAシステムの必要性を浮き彫りにしている。
関連論文リスト
- PRISM: Agentic Retrieval with LLMs for Multi-Hop Question Answering [10.971852280240357]
本稿では,大規模言語モデル(LLM)を構造化ループで活用し,高い精度で関連する証拠を検索するエージェント検索システムを提案する。
我々のフレームワークは3つの専門的なエージェントで構成されている: マルチホップ質問をサブクエストに分解する質問アナライザ、サブクエスト毎に最も関連性の高いコンテキストを特定するセレクタ、そして、欠けている証拠をもたらすアダである。
論文 参考訳(メタデータ) (2025-10-16T04:02:29Z) - Adaptive Question Answering: Enhancing Language Model Proficiency for Addressing Knowledge Conflicts with Source Citations [3.3018718917393297]
本稿では,複数の有効な回答が存在するあいまいな環境下で,ソースを引用した質問応答のタスクを提案する。
1)新しい5つのデータセット,(2)実世界の自然発生コンテキストを特徴とする最初のあいまいなマルチホップQAデータセット,(3)モデルの性能を評価するための2つの新しい指標からなる包括的フレームワークを構築した。
この新しいタスク、データセット、メトリクス、ベースラインは、コミュニティにQA研究の境界を押し進め、より信頼できる、解釈可能なシステムを開発するよう促すことを期待しています。
論文 参考訳(メタデータ) (2024-10-05T17:37:01Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - GenDec: A robust generative Question-decomposition method for Multi-hop
reasoning [32.12904215053187]
マルチホップQAには、複雑な質問に答えるステップバイステップの推論が含まれる。
マルチホップ質問応答における既存の大規模言語モデル(LLM)推論能力は現在も探索が続けられている。
LLMが正しい結論に達するために望ましい推論連鎖に従うかどうかは不明である。
論文 参考訳(メタデータ) (2024-02-17T02:21:44Z) - Tree of Clarifications: Answering Ambiguous Questions with
Retrieval-Augmented Large Language Models [30.186503757127188]
Tree of Clarifications (ToC)は、曖昧な質問に対する長文の回答を生成するフレームワークである。
ToCは、メトリクス間で数ショットのセットアップで、ASQAの既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-10-23T08:42:49Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z) - Unsupervised Question Decomposition for Question Answering [102.56966847404287]
本論文では, ワンツーNアン教師付きシーケンスシーケンス(ONUS)のアルゴリズムを提案する。
当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
論文 参考訳(メタデータ) (2020-02-22T19:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。