論文の概要: MIRAGE: Multi-hop Reasoning with Ambiguity Evaluation for Illusory Questions
- arxiv url: http://arxiv.org/abs/2509.22750v1
- Date: Fri, 26 Sep 2025 07:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.850075
- Title: MIRAGE: Multi-hop Reasoning with Ambiguity Evaluation for Illusory Questions
- Title(参考訳): MIRAGE: 曖昧な質問に対する曖昧性評価を伴うマルチホップ推論
- Authors: Jeonghyun Park, Ingeol Baek, Seunghyun Yoon, Haeun Jang, Aparna Garimella, Akriti Jain, Nedim Lipka, Hwanhee Lee,
- Abstract要約: 実世界のマルチホップ質問回答(QA)は、推論プロセス自体と分離できないあいまいさを伴うことが多い。
この曖昧さは、一つの質問から複数の推論パスが現れるという、明確な課題を生み出します。
本稿では,MultI-hop Reasoning with AmbiGuity Evaluation for Illusory Questions (MIRAGE)を紹介する。
- 参考スコア(独自算出の注目度): 25.695038634265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world Multi-hop Question Answering (QA) often involves ambiguity that is inseparable from the reasoning process itself. This ambiguity creates a distinct challenge, where multiple reasoning paths emerge from a single question, each requiring independent resolution. Since each sub-question is ambiguous, the model must resolve ambiguity at every step. Thus, answering a single question requires handling multiple layers of ambiguity throughout the reasoning chain. We find that current Large Language Models (LLMs) struggle in this setting, typically exploring wrong reasoning paths and producing incomplete answers. To facilitate research on multi-hop ambiguity, we introduce MultI-hop Reasoning with AmbiGuity Evaluation for Illusory Questions (MIRAGE), a benchmark designed to analyze and evaluate this challenging intersection of ambiguity interpretation and multi-hop reasoning. MIRAGE contains 1,142 high-quality examples of ambiguous multi-hop questions, categorized under a taxonomy of syntactic, general, and semantic ambiguity, and curated through a rigorous multi-LLM verification pipeline. Our experiments reveal that even state-of-the-art models struggle on MIRAGE, confirming that resolving ambiguity combined with multi-step inference is a distinct and significant challenge. To establish a robust baseline, we propose CLarifying Ambiguity with a Reasoning and InstructiON (CLARION), a multi-agent framework that significantly outperforms existing approaches on MIRAGE, paving the way for more adaptive and robust reasoning systems.
- Abstract(参考訳): 実世界のマルチホップ質問回答(QA)は、推論プロセス自体と分離できないあいまいさを伴うことが多い。
この曖昧さは、一つの質問から複数の推論パスが現れ、それぞれが独立した解決を必要とするという、明確な課題を生み出します。
各サブクエストはあいまいであるため、モデルは各ステップであいまいさを解決しなければならない。
したがって、一つの質問に答えるには、推論チェーン全体を通して複数の曖昧性を扱う必要がある。
現在のLarge Language Models(LLM)は、一般的に誤った推論パスを探求し、不完全な答えを生み出す、この設定で苦労している。
マルチホップ曖昧性の研究を容易にするために,MultI-hop Reasoning with AmbiGuity Evaluation for Illusory Questions (MIRAGE)を提案する。
MIRAGEは、曖昧なマルチホップ質問の1,142の高品質な例を含み、構文的、一般的、意味的曖昧性の分類の下に分類され、厳密なマルチLLM検証パイプラインでキュレートされる。
我々の実験は、最先端モデルでさえMIRAGEで苦労していることを示し、多段階推論とあいまいさの解消が相違し重要な課題であることを確認した。
頑健なベースラインを確立するために,MIRAGEの既存のアプローチを著しく上回り,より適応的で堅牢な推論システムを実現するマルチエージェントフレームワークであるReasoning and InstructiON (CLARION)を提案する。
関連論文リスト
- Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Empowering LLMs with Logical Reasoning: A Comprehensive Survey [49.91445266392609]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な成功を収めた。
近年の研究では、LLMの論理的推論能力にはまだ大きな課題があることがわかった。
論文 参考訳(メタデータ) (2025-02-21T18:20:35Z) - An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism [14.479060028732803]
マルチモーダルなマルチホップ質問応答の現在の手法は、主に2つの課題に直面している。
大量の冗長な情報を含む検索された証拠は、性能を著しく低下させる。
解釈可能な推論ステップのない推論プロセスは、複雑な問題を扱うための論理的誤りを発見するのを難しくする。
論文 参考訳(メタデータ) (2024-12-08T05:47:55Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - BeamAggR: Beam Aggregation Reasoning over Multi-source Knowledge for Multi-hop Question Answering [29.442468366125986]
本研究では,知識集約型マルチホップQAの推論フレームワークであるBeamAggRを提案する。
複雑な質問を木に解析し、これには原子や複合的な質問が含まれる。
原子的問題に対して、LLMは答え候補を得るためにマルチソースの知識を推論する。
複合的な問題に対して、LLMはビーム候補を結合し、確率的集約を通じて複数の推論経路を探索し、最も有望な軌道を優先する。
論文 参考訳(メタデータ) (2024-06-28T10:53:48Z) - Open-ended Commonsense Reasoning with Unrestricted Answer Scope [47.14397700770702]
Open-ended Commonsense Reasoning は、1) 回答候補の短いリスト、2) 事前定義された回答スコープを提供することなく、Commonsenseの問題を解決するものとして定義される。
本研究では,事前学習した言語モデルを用いて,外部知識に基づく推論経路を反復的に検索する。
推論パスは、常識的な質問に対する最も正確な答えを特定するのに役立つ。
論文 参考訳(メタデータ) (2023-10-18T02:45:54Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z) - GMH: A General Multi-hop Reasoning Model for KG Completion [37.01406934111068]
現在のモデルは一般的に短距離推論を行う。
長距離推論もまた、表面的に無関係な実体を接続する能力において不可欠である。
3つのモジュールで問題を解く一般モデルを提案する。
論文 参考訳(メタデータ) (2020-10-15T09:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。