論文の概要: Fine-tuning with RAG for Improving LLM Learning of New Skills
- arxiv url: http://arxiv.org/abs/2510.01375v1
- Date: Wed, 01 Oct 2025 19:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.831815
- Title: Fine-tuning with RAG for Improving LLM Learning of New Skills
- Title(参考訳): 新しいスキルのLLM学習改善のためのRAGによる微調整
- Authors: Humaid Ibrahim, Nikolai Rozanov, Marek Rei,
- Abstract要約: 大規模言語モデル(LLM)エージェントは予測可能な方法で頻繁に失敗する。
本稿では,推論時間検索を蒸留による学習能力に変換する単純なパイプラインを提案する。
- 参考スコア(独自算出の注目度): 8.825427873545063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents deployed for multi-step tasks frequently fail in predictable ways: attempting actions with unmet preconditions, issuing redundant commands, or mishandling environment constraints. While retrieval-augmented generation (RAG) can improve performance by providing runtime guidance, it requires maintaining external knowledge databases and adds computational overhead at every deployment. We propose a simple pipeline that converts inference-time retrieval into learned competence through distillation. Our approach: (1) extracts compact, reusable hints from agent failures, (2) uses these hints to generate improved teacher trajectories via one-shot retrieval at episode start, and (3) trains student models on these trajectories with hint strings removed, forcing internalization rather than memorization. Across two interactive benchmarks, ALFWorld (household tasks) and WebShop (online shopping), distilled students consistently outperform baseline agents, achieving up to 91% success on ALFWorld (vs. 79% for baselines) and improving WebShop scores to 72 (vs. 61 for baselines), while using 10-60% fewer tokens than retrieval-augmented teachers depending on the environment. The approach generalizes across model scales (7B/14B parameters) and agent architectures (ReAct/StateAct), demonstrating that retrieval benefits can be effectively internalized through targeted fine-tuning without permanent runtime dependencies.
- Abstract(参考訳): マルチステップタスクにデプロイされる大規模言語モデル(LLM)エージェントは、未完成のプリコンディションを使ったアクションの試行、冗長なコマンドの発行、環境制約の誤った処理など、予測可能な方法で頻繁に失敗する。
検索強化生成(RAG)は実行時ガイダンスを提供することでパフォーマンスを向上させることができるが、外部の知識データベースを維持し、デプロイ毎に計算オーバーヘッドを追加する必要がある。
本稿では,推論時間検索を蒸留による学習能力に変換する単純なパイプラインを提案する。
提案手法は,(1)エージェント障害からコンパクトで再利用可能なヒントを抽出し,(2)エピソード開始時のワンショット検索により教師の軌跡を改良し,(3)ヒント文字列を除去して学生モデルを訓練し,記憶よりも内部化を強制する。
ALFWorld(ハウスホールド・タスク)とWebShop(オンライン・ショッピング)の2つのインタラクティブなベンチマークで、学生の蒸留はベースライン・エージェントを一貫して上回り、ALFWorld(ベースラインは79%)で91%の成功を達成し、WebShopのスコアを72(ベースラインは61)に改善した。
このアプローチはモデルスケール (7B/14Bパラメータ) とエージェントアーキテクチャ (ReAct/StateAct) にまたがって一般化されており、永続的なランタイム依存なしに、ターゲットの微調整によって、検索のメリットを効果的に内部化できることを実証している。
関連論文リスト
- Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks [11.125564622217892]
大規模言語モデルエージェントは、人間の介入なしに自身の成功経験から学習することで改善する。
提案手法は,将来的なタスクのコンテキスト内例として機能する,自己生成トラジェクトリのデータベースを構築し,改良する。
我々の軌道ブートストラッピング技術は、エージェントが経験を通じて自律的に改善できることを示し、労働集約的な知識工学に代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-01T00:48:12Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。