論文の概要: Retrieval-Augmented LLM Agents: Learning to Learn from Experience
- arxiv url: http://arxiv.org/abs/2603.18272v1
- Date: Wed, 18 Mar 2026 20:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.843337
- Title: Retrieval-Augmented LLM Agents: Learning to Learn from Experience
- Title(参考訳): 検索型LLMエージェント:経験から学ぶ
- Authors: Thomas Palmeira Ferraz, Romain Deffayet, Vassilina Nikoulina, Hervé Déjean, Stéphane Clinchant,
- Abstract要約: 本研究では,検索対象のLLMエージェントを学習し,検索したトラジェクトリをコンテキスト内で活用する方法について検討する。
最先端のエージェントトレーニングパイプラインよりも優れたロラを用いた,堅牢な教師付き微調整(SFT)レシピを確立した。
その結果,この組み合わせによるタスクの一般化が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 16.248836438253814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have advanced the development of general-purpose agents, achieving robust generalization to unseen tasks remains a significant challenge. Current approaches typically rely on either fine-tuning or training-free memory-augmented generation using retrieved experience; yet both have limitations: fine-tuning often fails to extrapolate to new tasks, while experience retrieval often underperforms compared to supervised baselines. In this work, we propose to combine these approaches and systematically study how to train retrieval-augmented LLM agents to effectively leverage retrieved trajectories in-context. First, we establish a robust supervised fine-tuning (SFT) recipe using LoRA that outperforms several state-of-the-art agent training pipelines. Second, we provide a detailed analysis of key design choices for experience retrieval, identifying optimal strategies for storage, querying, and trajectory selection. Finally, we propose a pipeline that integrates experience retrieval into the fine-tuning process. Our results demonstrate that this combined approach significantly improves generalization to unseen tasks, providing a scalable and effective framework for building agents that learn to learn from experience.
- Abstract(参考訳): 大規模言語モデル(LLM)は汎用エージェントの開発を進めてきたが、未確認タスクへの堅牢な一般化は依然として大きな課題である。
現在のアプローチは、通常、検索された経験を使った微調整または無トレーニングのメモリ拡張生成のいずれかに依存しているが、どちらも制限がある。
本研究では,これらの手法を組み合わせて,検索対象のLLMエージェントを学習し,抽出したトラジェクトリをコンテキスト内で効果的に活用する方法を体系的に研究することを提案する。
まず、ロラを用いた頑健な教師付き微調整(SFT)レシピを構築し、最先端のエージェントトレーニングパイプラインより優れた性能を発揮する。
第2に、経験的検索のための重要な設計選択を詳細に分析し、記憶、クエリ、軌道選択のための最適な戦略を特定する。
最後に,経験検索を微調整プロセスに統合するパイプラインを提案する。
その結果,この組み合わせによるタスクの一般化が大幅に向上し,経験から学習するエージェント構築のためのスケーラブルで効果的なフレームワークが提供されることがわかった。
関連論文リスト
- APEX-Searcher: Augmenting LLMs' Search Capabilities through Agentic Planning and Execution [10.643859464982071]
APEX-Searcherは、大規模言語モデル(LLM)検索能力を増強する新しいエージェントプランニングおよび実行フレームワークである。
戦略計画の最適化のために、まずRLを分解特異的な報酬として採用する。
その後、高品質なマルチホップ軌道の教師付き微調整を適用し、ロバストな反復的なサブタスク実行能力を持つモデルに装備する。
論文 参考訳(メタデータ) (2026-03-14T09:17:12Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。