論文の概要: Knowledge-Graph Paths as Intermediate Supervision for Self-Evolving Search Agents
- arxiv url: http://arxiv.org/abs/2605.05702v1
- Date: Thu, 07 May 2026 05:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.539962
- Title: Knowledge-Graph Paths as Intermediate Supervision for Self-Evolving Search Agents
- Title(参考訳): 自己進化型検索エージェントの中間スーパービジョンとしての知識グラフパス
- Authors: Huyu Wu, Jun Liu, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu,
- Abstract要約: 自己進化型検索エージェントは、独自の検索タスクを生成し、解決する。
探索セルフプレイ(SSP)フレームワーク上に構築し,多段階探索と推論による質問の生成と回答を行う。
本稿では,知識グラフの経路を,質問構築と報酬形成の中間管理として利用することで,二つのボトルネックに対処する。
- 参考スコア(独自算出の注目度): 21.366388027090736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-evolving search agents reduce reliance on human-written training questions by generating and solving their own search tasks. We build on Search Self-Play (SSP), a representative Proposer and Solver framework in which questions are generated and answered via multi-step search and reasoning. In practice, however, SSP faces two bottlenecks: the Proposer constructs questions from isolated answer entities without relational context, yielding many invalid or unverifiable questions in early self-play training, while the Solver receives only a binary outcome reward that discards useful signal from partially on-track search trajectories. We address both bottlenecks by reusing knowledge-graph paths as construction-derived intermediate supervision for both question construction and reward shaping. First, we ground question construction in LLM-guided knowledge-graph subgraphs, providing relational context for the Proposer. Second, we observe that constructing and solving a multi-hop question can involve overlapping intermediate entities: the factual bridges used to formulate the question may provide approximate waypoints for answering it. Exploiting this overlap, we introduce Waypoint Coverage Reward (WCR), which grants graded partial credit to incorrect Solver trajectories according to their coverage of entities on the construction path, while preserving full reward for correct answers. Across seven QA benchmarks and nine model configurations, our approach improves the average score over standard SSP in all configurations, including notable gains on multi-hop QA tasks. These results suggest that knowledge-graph paths can be reused as lightweight intermediate supervision, providing both relational guidance and process feedback without additional task-specific human annotations or manually labeled process steps.
- Abstract(参考訳): 自己進化型検索エージェントは、独自の検索タスクを生成し、解決することによって、人手によるトレーニング質問への依存を減らす。
探索セルフプレイ(SSP)は,多段階探索と推論によって質問を生成・回答する,代表的プロポーラとソルバーのフレームワークである。
しかし、実際には、SSPは2つのボトルネックに直面している: Proposerは、関係性のない独立した回答エンティティから質問を生成し、初期のセルフプレイトレーニングにおいて無効または検証不可能な多くの質問を出力し、Solverは、部分的にオントラックの検索軌跡から有用な信号を捨てるバイナリ結果報酬のみを受け取る。
我々は,知識グラフの経路を,質問構築と報酬形成の中間管理として利用することで,両方のボトルネックに対処する。
まず,LLM誘導の知識グラフのサブグラフに疑問を呈示し,プロポーラの関連性について考察する。
第二に、マルチホップ問題の構築と解決には、重なり合う中間要素が伴うことが観察される: 質問を定式化するために使用される実橋は、それに対応するための近似的な経路ポイントを与えるかもしれない。
提案手法では, 正しい解答に対する完全な報酬を保ちながら, 建設経路上のエンティティのカバレッジに応じて, 不正なソルバー軌道に対して, 格付けされた部分的信用を付与する。
7つのQAベンチマークと9つのモデル構成で、マルチホップQAタスクの顕著な向上を含む、すべての構成において標準SSPよりも平均スコアが向上する。
これらの結果から,リレーショナルガイダンスとプロセスフィードバックの両方を,追加のタスク固有のアノテーションや手作業によるラベル付けのプロセスステップを使わずに,知識グラフパスを軽量な中間監視として再利用できることが示唆された。
関連論文リスト
- PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training [28.912613644535668]
本稿では,エージェント検索訓練におけるデータ効率向上のためのフレームワークPRAISEを提案する。
本手法は,検索ポリシー学習とプレフィックス応答評価の両方に,単一の共有モデルを用いる。
マルチホップQAベンチマークの実験では、PRAISEは強いベースラインよりも一貫してパフォーマンスを改善している。
論文 参考訳(メタデータ) (2026-04-04T10:23:46Z) - SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback [68.60326181052658]
本稿では,高品質で難易度の高い探索問合せを自動生成するエージェントパイプラインを提案する。
我々のパイプラインであるSAGEは、QAペアを提案するデータジェネレータと、生成された質問を解決するための検索エージェントで構成される。
我々の本質的な評価は、SAGEが様々な推論戦略を必要とする質問を生成する一方で、生成したデータの正確性や難易度を著しく高めていることを示している。
論文 参考訳(メタデータ) (2026-01-26T06:37:56Z) - PRISMA: Reinforcement Learning Guided Two-Stage Policy Optimization in Multi-Agent Architecture for Open-Domain Multi-Hop Question Answering [26.994531058178982]
大規模コーパスに対する現実世界のオープンドメイン問題への回答は、レトリーバル・拡張ジェネレーション(RAG)システムにおいて重要な課題である。
近年の研究では、検索強化推論プロセスのエンドツーエンド最適化に強化学習(RL)を採用している。
PRISMAはPlan-Retrieve-Inspect-Memoizeアーキテクチャを特徴とする分離誘導型フレームワークである。
論文 参考訳(メタデータ) (2026-01-09T01:38:38Z) - Modeling Contextual Passage Utility for Multihop Question Answering [3.8786514101828167]
マルチホップ質問回答(Multihop Question Answering, QA)は、複数のテキストパスから情報を識別して合成するシステムである。
本稿では,パス間の依存関係を考慮に入れながら,コンテキストパスユーティリティをモデル化するための軽量なアプローチを提案する。
我々は、先進的推論モデルからの推論トレースを利用して、問合せが解答に使用される順序を捉える。
論文 参考訳(メタデータ) (2025-12-06T14:54:47Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models [64.49342399229529]
我々は、ポストホック帰属を推論問題として再編成し、回答を構成単位に分解し、それぞれ特定の文脈に結び付けることができると論じる。
DecompTuneは、モデルに中間的推論ステップとして解解分解を生成することを教えるポストトレーニング手法である。
DecompTuneは、広範な実験と改善を通じて、属性の品質を大幅に改善し、先行手法より優れ、最先端のフロンティアモデルに適合または超えている。
論文 参考訳(メタデータ) (2025-10-29T17:58:59Z) - BMGQ: A Bottom-up Method for Generating Complex Multi-hop Reasoning Questions from Semi-structured Data [8.52473384574856]
本稿では,半構造化知識ソースから高難易度,訓練可能なマルチホップ質問を自動生成するフレームワークを提案する。
このシステムは、自然言語推論(NLI)に基づく関係型付けと多様性を意識した拡張を通じて、多様な、論理的にラベル付けされたエビデンスクラスタを成長させる。
論文 参考訳(メタデータ) (2025-10-28T07:43:15Z) - Divide-and-Conquer: Tree-structured Strategy with Answer Distribution Estimator for Goal-Oriented Visual Dialogue [30.126882554391837]
Answer Distribution Estimator(TSADE)を用いた樹木構造戦略
本稿では,現在の候補オブジェクトの半数を各ラウンドで除外することで,質問生成をガイドする木構造戦略(TSADE)を提案する。
提案手法は,従来のエルゴディックな質問生成手法と比較して,繰り返し質問やラウンドの少ないタスク指向の精度をエージェントが達成できることを実験的に実証する。
論文 参考訳(メタデータ) (2025-02-09T08:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。