論文の概要: Open Data Synthesis For Deep Research
- arxiv url: http://arxiv.org/abs/2509.00375v1
- Date: Sat, 30 Aug 2025 06:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.202865
- Title: Open Data Synthesis For Deep Research
- Title(参考訳): 深部研究のためのオープンデータ合成
- Authors: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu,
- Abstract要約: 我々は、階層的制約満足度問題として検証可能な回答でDeep Researchタスクを定式化する。
既存のベンチマーク(Natural Questions、HotpotQAなど)は、この複雑さを捉えていない。
スケーラブルでスケーラブルな複雑なDeep ResearchタスクであるInfoSeekを紹介します。
- 参考スコア(独自算出の注目度): 17.22470203913576
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly expected to go beyond simple factual queries toward Deep Research-tasks that require decomposing questions into sub-problems, coordinating multi-step reasoning, and synthesizing evidence from diverse sources. We formalize Deep Research tasks with verifiable answers as Hierarchical Constraint Satisfaction Problems (HCSPs), which are fundamentally different from single-constraint, multi-hop, or flat CSP formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA) fail to capture this complexity, while recent synthetic datasets often introduce shortcut reasoning, knowledge leakage, or lack sufficient structural depth. To address this gap, we introduce InfoSeek, a scalable framework for synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to recursively build a Research Tree from large-scale webpages, blurring intermediate nodes into valid sub-problems, and converting these trees into natural language questions that require traversing the full hierarchy. It also enables rapid scaling, yielding over 50K training examples, a curated test set, and reasoning trajectories generated via reject sampling. Experiments show that models trained on InfoSeek consistently outperform strong baselines. On a challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash), while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro). By preserving meta-information such as intermediate steps and retrieval labels, InfoSeek further supports advanced optimization strategies, including compound reward design and trajectory-level exploration. We provide our codes and datasets in \href{https://github.com/VectorSpaceLab/InfoSeek}{this repository}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問をサブプロブレムに分解し、多段階の推論をコーディネートし、様々な情報源から証拠を合成することを必要とする、Deep Research-task(ディープ・リサーチ・タスク)への単純な事実クエリを超えることがますます期待されている。
我々は,階層的制約満足度問題 (HCSP) として検証可能な解を用いてDeep Researchのタスクを定式化し,これは単一制約,マルチホップ,フラットなCSPの定式化と根本的に異なる。
しかし、既存のベンチマーク(例えば、Natural Questions、HotpotQA)では、この複雑さを捉えることができず、最近の合成データセットでは、しばしばショートカット推論や知識リーク、あるいは十分な構造的な深さが欠如している。
このギャップに対処するために、複雑なDeep Researchタスクを合成するためのスケーラブルなフレームワークであるInfoSeekを紹介します。
InfoSeekはデュアルエージェントシステムを使用して、大規模なWebページからResearch Treeを再帰的に構築し、中間ノードを有効なサブプロブレムにぼかし、これらのツリーをフル階層をトラバースする必要のある自然言語の質問に変換する。
また、高速なスケーリングを可能にし、50K以上のトレーニング例、キュレートされたテストセット、リジェクションサンプリングによって生成された推論トラジェクトリを提供する。
実験によると、InfoSeekでトレーニングされたモデルは、一貫して強力なベースラインを上回っている。
挑戦的なベンチマークであるBrowseComp-Plusでは、InfoSeekで最適化された3B LLMが、はるかに大きな32Bモデルと軽量商用API(例:Gemini2.5-Flash)を上回り、より強力なAPI(例:Gemini2.5-Pro)に匹敵するパフォーマンスを達成する。
中間ステップや検索ラベルなどのメタ情報を保存することで、InfoSeekは複合報酬設計や軌道レベルの探索を含む高度な最適化戦略をさらにサポートする。
コードとデータセットは \href{https://github.com/VectorSpaceLab/InfoSeek}{this repository} で公開しています。
関連論文リスト
- Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis [52.636738269442766]
本稿では,生のベンチマークと総合的自動評価フレームワークであるDeepScholar-benchを紹介する。
DeepScholar-benchは、最近の高品質なArXiv論文からクエリを抽出し、真の研究合成タスクにフォーカスしている。
また,LOTUS APIを用いて効率的に実装した参照パイプラインであるDeepScholar-baseを開発した。
論文 参考訳(メタデータ) (2025-08-27T16:36:34Z) - GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation [5.002953635224383]
Retrieval-Augmented Generation (RAG) システムは知識集約型NLPタスクに広く採用されている。
現在の評価は、実世界のシナリオで必要とされる構造的な複雑さと多段階の推論を見落としていることが多い。
タスクの難易度を2次元でモデル化する新しい評価フレームワークであるtextscGRADEを提案する。
論文 参考訳(メタデータ) (2025-08-23T11:26:41Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。