論文の概要: SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback
- arxiv url: http://arxiv.org/abs/2601.18202v1
- Date: Mon, 26 Jan 2026 06:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.706187
- Title: SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback
- Title(参考訳): SAGE: 実行フィードバックを備えたディープ検索のためのステアブルエージェントデータ生成
- Authors: Fangyuan Xu, Rujun Han, Yanfei Chen, Zifeng Wang, I-Hung Hsu, Jun Yan, Vishy Tirumalashetty, Eunsol Choi, Tomas Pfister, Chen-Yu Lee,
- Abstract要約: 本稿では,高品質で難易度の高い探索問合せを自動生成するエージェントパイプラインを提案する。
我々のパイプラインであるSAGEは、QAペアを提案するデータジェネレータと、生成された質問を解決するための検索エージェントで構成される。
我々の本質的な評価は、SAGEが様々な推論戦略を必要とする質問を生成する一方で、生成したデータの正確性や難易度を著しく高めていることを示している。
- 参考スコア(独自算出の注目度): 68.60326181052658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep search agents, which aim to answer complex questions requiring reasoning across multiple documents, can significantly speed up the information-seeking process. Collecting human annotations for this application is prohibitively expensive due to long and complex exploration trajectories. We propose an agentic pipeline that automatically generates high quality, difficulty-controlled deep search question-answer pairs for a given corpus and a target difficulty level. Our pipeline, SAGE, consists of a data generator which proposes QA pairs and a search agent which attempts to solve the generated question and provide execution feedback for the data generator. The two components interact over multiple rounds to iteratively refine the question-answer pairs until they satisfy the target difficulty level. Our intrinsic evaluation shows SAGE generates questions that require diverse reasoning strategies, while significantly increases the correctness and difficulty of the generated data. Our extrinsic evaluation demonstrates up to 23% relative performance gain on popular deep search benchmarks by training deep search agents with our synthetic data. Additional experiments show that agents trained on our data can adapt from fixed-corpus retrieval to Google Search at inference time, without further training.
- Abstract(参考訳): 複数の文書にまたがって推論を必要とする複雑な質問に答えることを目的としたディープサーチエージェントは、情報検索プロセスを大幅に高速化することができる。
このアプリケーションのための人的アノテーションの収集は、長く複雑な探索軌跡のため、違法にコストがかかる。
提案するエージェントパイプラインは,与えられたコーパスと目的の難易度に対して,高品質で,制御の難易度の高い質問応答ペアを自動生成する。
我々のパイプラインであるSAGEは、QAペアを提案するデータジェネレータと、生成された質問を解決し、データジェネレータに対して実行フィードバックを提供するサーチエージェントで構成されています。
2つのコンポーネントは複数のラウンドで相互作用し、ターゲットの難易度を満たすまで質問と回答のペアを反復的に洗練する。
我々の本質的な評価は、SAGEが様々な推論戦略を必要とする質問を生成する一方で、生成したデータの正確性や難易度を著しく高めていることを示している。
総合的な評価は, 検索エージェントを合成データで訓練することにより, 人気のディープサーチベンチマークにおいて, 23%の相対的な性能向上を示す。
追加実験では、データに基づいてトレーニングされたエージェントが、さらなるトレーニングをすることなく、固定コーパス検索から推論時にGoogle検索に適応できることが示されている。
関連論文リスト
- BMGQ: A Bottom-up Method for Generating Complex Multi-hop Reasoning Questions from Semi-structured Data [8.52473384574856]
本稿では,半構造化知識ソースから高難易度,訓練可能なマルチホップ質問を自動生成するフレームワークを提案する。
このシステムは、自然言語推論(NLI)に基づく関係型付けと多様性を意識した拡張を通じて、多様な、論理的にラベル付けされたエビデンスクラスタを成長させる。
論文 参考訳(メタデータ) (2025-10-28T07:43:15Z) - Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms [81.90219895125178]
Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。
基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。
複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-15T06:34:46Z) - Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning [23.104182075898297]
Reasoning-augmented search agent, such as Search-R1, are trained to reason, search, and generate the final answer repeateratively。
我々は、強化学習によるクエリ拡張のネイティブ機能を備えたLLMベースの検索エージェントを訓練する。
シュレッシャーモデルの助けを借りて,小型の3B LLMでもクエリ拡張の強力な能力を実証できることが判明した。
論文 参考訳(メタデータ) (2025-10-11T04:23:30Z) - Open Data Synthesis For Deep Research [17.22470203913576]
我々は、階層的制約満足度問題として検証可能な回答でDeep Researchタスクを定式化する。
既存のベンチマーク(Natural Questions、HotpotQAなど)は、この複雑さを捉えていない。
スケーラブルでスケーラブルな複雑なDeep ResearchタスクであるInfoSeekを紹介します。
論文 参考訳(メタデータ) (2025-08-30T06:02:56Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。