論文の概要: ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget
- arxiv url: http://arxiv.org/abs/2604.01195v1
- Date: Wed, 01 Apr 2026 17:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.126437
- Title: ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget
- Title(参考訳): ORBIT: タイト予算による検索エージェントのスケーラブルで検証可能なデータ生成
- Authors: Nandan Thakur, Zijian Chen, Xueguang Ma, Jimmy Lin,
- Abstract要約: ORBITは20Kの推論集約クエリと短い検証可能な回答を備えたトレーニングデータセットである。
私たちのフレームワーク、コード、データセットはオープンソースで公開されています。
- 参考スコア(独自算出の注目度): 56.6320292944541
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Search agents, which integrate language models (LMs) with web search, are becoming crucial for answering complex user queries. Constructing training datasets for deep research tasks, involving multi-step retrieval and reasoning, remains challenging due to expensive human annotation, or cumbersome prerequisites. In this work, we introduce ORBIT, a training dataset with 20K reasoning-intensive queries with short verifiable answers, generated using a frugal framework without relying on paid API services. The modular framework relies on four stages: seed creation, question--answer pair generation, and two stages of verification: self and external. ORBIT spans 15 domains and each training pair requires 4--5 reasoning steps, with external search verification required from the complete web. We train Qwen3-4B as the base model on ORBIT using GRPO and evaluate it on Wikipedia question answering tasks. Extensive experiment results demonstrate that ORBIT-4B achieves strong performance among sub-4B LLMs as search agents, proving the utility of synthetic datasets. Our framework, code and datasets are open-sourced and available publicly.
- Abstract(参考訳): 言語モデル(LM)とWeb検索を統合した検索エージェントは,複雑なユーザクエリに応答するために重要になっている。
多段階の検索と推論を含む深層研究タスクのためのトレーニングデータセットの構築は、高価な人間のアノテーションや面倒な前提条件のために依然として困難である。
そこで本研究では,20Kの推論集約型クエリによるトレーニングデータセットであるORBITについて紹介する。
モジュラーフレームワークは4つのステージに依存している: シード生成、質問-回答ペア生成、検証の2つのステージ: 自己と外部だ。ORBITは15のドメインにまたがり、各トレーニングペアは4~5の推論ステップを必要とする。
我々は、GRPOを用いてORBITのベースモデルとしてQwen3-4Bを訓練し、ウィキペディアの質問応答タスクで評価する。
ORBIT-4Bはサーチエージェントとしてサブ-4B LLM間で高い性能を示し, 合成データセットの有用性を実証した。
私たちのフレームワーク、コード、データセットはオープンソースで公開されています。
関連論文リスト
- KARL: Knowledge Agents via Reinforcement Learning [63.627906947205624]
本稿では,強化学習による企業検索エージェントの訓練システムを提案する。
KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。
異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
論文 参考訳(メタデータ) (2026-03-05T14:30:25Z) - AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - Open Data Synthesis For Deep Research [17.22470203913576]
我々は、階層的制約満足度問題として検証可能な回答でDeep Researchタスクを定式化する。
既存のベンチマーク(Natural Questions、HotpotQAなど)は、この複雑さを捉えていない。
スケーラブルでスケーラブルな複雑なDeep ResearchタスクであるInfoSeekを紹介します。
論文 参考訳(メタデータ) (2025-08-30T06:02:56Z) - From Search to Reasoning: A Five-Level RAG Capability Framework for Enterprise Data [5.336176993332404]
Retrieval-Augmented Generationは、エンタープライズデータに関する質問に答えるための標準パラダイムとして登場した。
本稿では,データモダリティとタスクの複雑さに基づいた分類を行うための新しい分類フレームワーク(L1-L5)を提案する。
LangChain、Azure AI Search、OpenAI、Corvic AIの4つの最先端プラットフォームを評価します。
論文 参考訳(メタデータ) (2025-08-27T21:43:03Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。