論文の概要: HopWeaver: Synthesizing Authentic Multi-Hop Questions Across Text Corpora
- arxiv url: http://arxiv.org/abs/2505.15087v1
- Date: Wed, 21 May 2025 04:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.860374
- Title: HopWeaver: Synthesizing Authentic Multi-Hop Questions Across Text Corpora
- Title(参考訳): HopWeaver: テキストコーパス全体での認証マルチホップ質問の合成
- Authors: Zhiyu Shen, Jiyuan Liu, Yunhe Pang, Yanghui Rao,
- Abstract要約: MHQA(Multi-Hop Question Answering)は、様々な情報源からの情報を統合するモデルの能力を評価するために重要である。
本稿では,非構造化テキストコーパスから真のマルチホップ質問を合成する最初の自動フレームワークであるHopWeaverを紹介する。
- 参考スコア(独自算出の注目度): 14.4075021783148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Hop Question Answering (MHQA) is crucial for evaluating the model's capability to integrate information from diverse sources. However, creating extensive and high-quality MHQA datasets is challenging: (i) manual annotation is expensive, and (ii) current synthesis methods often produce simplistic questions or require extensive manual guidance. This paper introduces HopWeaver, the first automatic framework synthesizing authentic multi-hop questions from unstructured text corpora without human intervention. HopWeaver synthesizes two types of multi-hop questions (bridge and comparison) using an innovative approach that identifies complementary documents across corpora. Its coherent pipeline constructs authentic reasoning paths that integrate information across multiple documents, ensuring synthesized questions necessitate authentic multi-hop reasoning. We further present a comprehensive system for evaluating synthesized multi-hop questions. Empirical evaluations demonstrate that the synthesized questions achieve comparable or superior quality to human-annotated datasets at a lower cost. Our approach is valuable for developing MHQA datasets in specialized domains with scarce annotated resources. The code for HopWeaver is publicly available.
- Abstract(参考訳): MHQA(Multi-Hop Question Answering)は、様々な情報源からの情報を統合するモデルの能力を評価するために重要である。
しかし、広範囲で高品質なMHQAデータセットを作成することは難しい。
(i)手書きの注釈は高価で、
(II)現在の合成法は、単純な疑問を生じさせる場合や、広範囲な手動指導を必要とする場合が多い。
本稿では、人間の介入なしに、構造化されていないテキストコーパスから真のマルチホップ質問を合成する最初の自動フレームワークHopWeaverを紹介する。
HopWeaverは、コーパス間の補完文書を特定する革新的なアプローチを用いて、2種類のマルチホップ質問(ブリッジと比較)を合成する。
そのコヒーレントパイプラインは、複数の文書にまたがる情報を統合する真正な推論パスを構築し、合成された質問が真正なマルチホップ推論を必要とすることを保証する。
さらに,合成したマルチホップ質問を総合的に評価するシステムを提案する。
経験的評価により、合成された質問は、より低コストで人間の注釈付きデータセットに匹敵する品質または優れた品質が得られることが示された。
我々のアプローチは、注釈付きリソースが少ない特殊なドメインでMHQAデータセットを開発するのに有用である。
HopWeaverのコードは公開されている。
関連論文リスト
- FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering [21.545569307511183]
マルチモーダルなマルチホップ質問応答 (MMQA) には、複数のソースからの画像やテキストを推論する必要がある。
既存の方法は、シングルホップ、シングルモダリティ、短いテキストに焦点を当てている。
MMQAのための高品質なデータセットを作成するための最初のフレームワークであるFM2DSを紹介します。
論文 参考訳(メタデータ) (2024-12-09T22:35:44Z) - Explainable Multi-hop Question Generation: An End-to-End Approach without Intermediate Question Labeling [6.635572580071933]
マルチホップ質問生成は、複数の文書に対して多段階の推論を必要とする複雑な質問を生成することを目的としている。
従来の研究では、コンテキスト文書の表現に基づいて質問をデコードするエンド・ツー・エンド・モデルが主流であった。
本稿では,逐次書き直しによる質問の複雑さを増大させるエンドツーエンドの質問書き直しモデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T06:03:54Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Understanding and Improving Zero-shot Multi-hop Reasoning in Generative
Question Answering [85.79940770146557]
マルチホップ質問を複数の単一ホップ質問に分解する。
これらの対の見かけ上同一の問合せ連鎖について、QAモデルの答えに顕著な矛盾が認められる。
シングルホップの質問だけを訓練すると、モデルはマルチホップの質問に対してあまり一般化しない。
論文 参考訳(メタデータ) (2022-10-09T11:48:07Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of
Reasoning Steps [31.472490306390977]
マルチホップ質問応答データセットは、モデルが与えられた質問に答えるために複数の段落を読むことを要求することにより、推論と推論のスキルをテストすることを目的としている。
これまでの研究では、既存のマルチホップデータセットの多くの例は、質問に答えるためにマルチホップ推論を必要としないことが判明した。
構造化データと非構造化データを利用する2WikiMultiHopQAと呼ばれる新しいマルチホップQAデータセットを提案する。
論文 参考訳(メタデータ) (2020-11-02T15:42:40Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z) - Answering Complex Open-Domain Questions with Multi-Hop Dense Retrieval [117.07047313964773]
複雑なオープンドメインの質問に答えるために, 単純で効率的なマルチホップ高密度検索手法を提案する。
本手法では,文書間ハイパーリンクやアノテートされたエンティティマーカーなど,コーパス固有の情報へのアクセスは不要である。
提案システムでは,HotpotQA上でのベストパブリッシュ精度と,推論時の10倍の速度で,より優れた効率・精度のトレードオフも実現している。
論文 参考訳(メタデータ) (2020-09-27T06:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。