論文の概要: Learning to Retrieve from Agent Trajectories
- arxiv url: http://arxiv.org/abs/2604.04949v1
- Date: Mon, 30 Mar 2026 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.353953
- Title: Learning to Retrieve from Agent Trajectories
- Title(参考訳): エージェント軌道からの学習
- Authors: Yuqi Zhou, Sunhao Dai, Changle Qu, Liang Pang, Jun Xu, Ji-Rong Wen,
- Abstract要約: 我々はエージェント間相互作用データから直接エージェント探索のための検索モデルを訓練すべきであると主張している。
エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。
本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
- 参考スコア(独自算出の注目度): 72.8923565916533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Information retrieval (IR) systems have traditionally been designed and trained for human users, with learning-to-rank methods relying heavily on large-scale human interaction logs such as clicks and dwell time. With the rapid emergence of large language model (LLM) powered search agents, however, retrieval is increasingly consumed by agents rather than human beings, and is embedded as a core component within multi-turn reasoning and action loops. In this setting, retrieval models trained under human-centric assumptions exhibit a fundamental mismatch with the way agents issue queries and consume results. In this work, we argue that retrieval models for agentic search should be trained directly from agent interaction data. We introduce learning to retrieve from agent trajectories as a new training paradigm, where supervision is derived from multi-step agent interactions. Through a systematic analysis of search agent trajectories, we identify key behavioral signals that reveal document utility, including browsing actions, unbrowsed rejections, and post-browse reasoning traces. Guided by these insights, we propose LRAT, a simple yet effective framework that mines high-quality retrieval supervision from agent trajectories and incorporates relevance intensity through weighted optimization. Extensive experiments on both in-domain and out-of-domain deep research benchmarks demonstrate that retrievers trained with LRAT consistently improve evidence recall, end-to-end task success, and execution efficiency across diverse agent architectures and scales. Our results highlight agent trajectories as a practical and scalable supervision source, pointing to a promising direction for retrieval in the era of agentic search.
- Abstract(参考訳): 情報検索(IR)システムは、伝統的に人間のユーザのために設計され、訓練されてきた。
しかし,大規模言語モデル (LLM) を用いた検索エージェントが急速に出現するにつれて,検索は人間ではなくエージェントによって消費され,マルチターン推論やアクションループのコアコンポーネントとして組み込まれている。
この設定では、人間中心の仮定の下で訓練された検索モデルは、エージェントがクエリを発行し、結果を消費する方法と根本的なミスマッチを示す。
本研究では,エージェント間相互作用データから直接,エージェント探索のための検索モデルを訓練すべきである,と論じる。
エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。
検索エージェントトラジェクトリの系統的解析により,閲覧行動,閲覧拒否,ブラウザ後推論トレースなど,文書の有用性を明らかにする重要な行動信号が同定される。
これらの知見に導かれたLRATは,エージェントトラジェクトリから高品質な検索監視をマイニングし,重み付け最適化による関連強度を取り入れた,シンプルで効果的なフレームワークである。
ドメイン内およびドメイン外両方のディープリサーチベンチマークに関する大規模な実験は、LRATでトレーニングされたレトリバーが、さまざまなエージェントアーキテクチャとスケールにわたるエビデンスリコール、エンドツーエンドタスクの成功、実行効率を一貫して改善していることを示している。
本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
関連論文リスト
- AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z) - ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards [18.92867715736209]
本稿では,検索エージェントを訓練するための自己修正フレームワークであるReSeekを提案する。
本フレームワークでは,誤探索経路からエージェントを動的に識別・復元する自己補正機構を導入している。
既存のデータセットにおけるデータ汚染のリスクを軽減するため、FictionalHotを導入する。
論文 参考訳(メタデータ) (2025-10-01T06:44:28Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Adversarial Search and Tracking with Multiagent Reinforcement Learning
in Sparsely Observable Environment [7.195547595036644]
本研究では,探索・追跡(S&T)問題として,動的探索エージェントのチームが協調して,敵対的,回避的エージェントを追跡することを提案する。
この問題は, モデルベース探索・強化学習(RL)手法の両手法において, 探索エージェントのスパース検出に繋がる大規模な空間において, 反抗的かつ詐欺的回避行動を示すため, 課題となる。
本稿では,学習可能なフィルタリングモデルから推定逆位置を利用する新しいMulti-Agent RL(MARL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-20T05:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。