論文の概要: BMGQ: A Bottom-up Method for Generating Complex Multi-hop Reasoning Questions from Semi-structured Data
- arxiv url: http://arxiv.org/abs/2510.24151v1
- Date: Tue, 28 Oct 2025 07:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.893309
- Title: BMGQ: A Bottom-up Method for Generating Complex Multi-hop Reasoning Questions from Semi-structured Data
- Title(参考訳): BMGQ:半構造化データから複雑なマルチホップ推論質問を生成するボトムアップ手法
- Authors: Bingsen Qiu, Zijian Liu, Xiao Liu, Haoshen Yang, Zeren Gao, Bingjie Wang, Feier Zhang, Yixuan Qin, Chunyan Li,
- Abstract要約: 本稿では,半構造化知識ソースから高難易度,訓練可能なマルチホップ質問を自動生成するフレームワークを提案する。
このシステムは、自然言語推論(NLI)に基づく関係型付けと多様性を意識した拡張を通じて、多様な、論理的にラベル付けされたエビデンスクラスタを成長させる。
- 参考スコア(独自算出の注目度): 8.52473384574856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building training-ready multi-hop question answering (QA) datasets that truly stress a model's retrieval and reasoning abilities remains highly challenging recently. While there have been a few recent evaluation datasets that capture the characteristics of hard-to-search but easy-to-verify problems -- requiring the integration of ambiguous, indirect, and cross-domain cues -- these data resources remain scarce and are mostly designed for evaluation, making them unsuitable for supervised fine-tuning (SFT) or reinforcement learning (RL). Meanwhile, manually curating non-trivially retrievable questions -- where answers cannot be found through a single direct query but instead require multi-hop reasoning over oblique and loosely connected evidence -- incurs prohibitive human costs and fails to scale, creating a critical data bottleneck for training high-capability retrieval-and-reasoning agents. To address this, we present an automated framework for generating high-difficulty, training-ready multi-hop questions from semi-structured knowledge sources. The system (i) grows diverse, logically labeled evidence clusters through Natural Language Inference (NLI)-based relation typing and diversity-aware expansion; (ii) applies reverse question construction to compose oblique cues so that isolated signals are underinformative but their combination uniquely identifies the target entity; and (iii) enforces quality with a two-step evaluation pipeline that combines multi-model consensus filtering with structured constraint decomposition and evidence-based matching. The result is a scalable process that yields complex, retrieval-resistant yet verifiable questions suitable for SFT/RL training as well as challenging evaluation, substantially reducing human curation effort while preserving the difficulty profile of strong evaluation benchmarks.
- Abstract(参考訳): モデルの検索と推論能力を真に強調する、トレーニング対応のマルチホップ質問応答(QA)データセットの構築は、最近では非常に難しいままです。
調査が難しいが検証が容易な問題の特徴を捉えた、最近の評価データセットがいくつかあるが、曖昧で間接的な、ドメイン横断的なキューの統合が必要であり、これらのデータリソースは依然として不足しており、主に評価のために設計されているため、教師付き微調整(SFT)や強化学習(RL)には適さない。
一方、非自明に検索可能な質問を手動でキュレートする -- 単一の直接クエリでは答えが見つからないが、斜めでゆるやかに結びついた証拠に対するマルチホップ推論を必要とする — は、人件費の禁止とスケールの失敗を引き起こし、高い能力の検索と推論エージェントをトレーニングするための重要なデータボトルネックを生み出します。
そこで本研究では,半構造化知識ソースから,高精度で訓練可能なマルチホップ質問を自動生成するフレームワークを提案する。
制度
i) 自然言語推論(NLI)に基づく関係型付けと多様性を意識した拡張を通じて,多様かつ論理的にラベル付けされたエビデンスクラスタを成長させる。
(ii)斜めの手がかりを構成するために逆問題構築を適用して、孤立した信号が不定形であるが、それらの組み合わせがターゲットエンティティをユニークに識別する。
3)マルチモデルコンセンサスフィルタリングと構造化制約分解とエビデンスに基づくマッチングを組み合わせた2段階評価パイプラインで品質を向上する。
その結果、SFT/RLトレーニングに適した複雑で、検索に耐性があり、検証可能な質問が得られ、高い評価ベンチマークの難易度を保ちながら、人間のキュレーションの労力を大幅に削減する。
関連論文リスト
- Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation [5.002953635224383]
Retrieval-Augmented Generation (RAG) システムは知識集約型NLPタスクに広く採用されている。
現在の評価は、実世界のシナリオで必要とされる構造的な複雑さと多段階の推論を見落としていることが多い。
タスクの難易度を2次元でモデル化する新しい評価フレームワークであるtextscGRADEを提案する。
論文 参考訳(メタデータ) (2025-08-23T11:26:41Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - MHTS: Multi-Hop Tree Structure Framework for Generating Difficulty-Controllable QA Datasets for RAG Evaluation [5.525151548786079]
既存のRAGベンチマークはクエリの難しさを見落とし、単純な質問や信頼性の低い評価でパフォーマンスが膨らむ。
MHTS(Multi-Hop Tree Structure)は、マルチホップツリー構造を利用して、論理的に連結されたマルチチャンククエリを生成することで、マルチホップ推論の複雑さを制御する新しいデータセット合成フレームワークである。
論文 参考訳(メタデータ) (2025-03-29T06:26:01Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。