論文の概要: Unified Context Evolution for LLM Agents
- arxiv url: http://arxiv.org/abs/2606.02304v1
- Date: Mon, 01 Jun 2026 14:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.279155
- Title: Unified Context Evolution for LLM Agents
- Title(参考訳): LLMエージェントの統一コンテキスト進化
- Authors: Zixuan Zhu, Yitong Hu, Yong Dai, Junfeng Fang, Chunyang Jiang, Senkang Hu, Yuzhi Zhao,
- Abstract要約: Unified Context Evolution (UCE) は、エージェントエクスペリエンスを進化するライブラリタイプEvolvable Context Units (ECUs) に外部化するフレームワークである。
UCEは経験を4つの補完型(メモリ、戦略、スキル)に分解する
スケジューリングモジュールは、ライブラリが最も弱いタイプに対して、各サイクルの生成予算を割り当てる。
- 参考スコア(独自算出の注目度): 19.55736346580243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents can solve multi-step interactive tasks by combining reasoning with environment feedback, yet each episode starts from the same fixed context and any useful strategy discovered along the way is lost once the task ends. Existing approaches either limit learning to the current task or pool all experience into a single untyped store, without distinguishing knowledge types, tracking quality through use, or balancing what the library still lacks. We introduce Unified Context Evolution (UCE), a gradient-free framework that externalizes agent experience into an evolving library of typed Evolvable Context Units (ECUs). UCE decomposes experience into four complementary types (Memory, Strategy, Workflow, and Skill), each generated from trajectories under type-specific conditions, retrieved at decision time, scored through repeated usage outcomes, and pruned when no longer valuable. A scheduling module allocates each cycle's generation budget toward the types where the library is weakest. Across two interactive benchmarks, UCE raises ALFWorld success from 75.4% to 96.3% and WebShop task score from 45.1% to 61.3%, and the accumulated library transfers to alternative actor backbones without retraining.
- Abstract(参考訳): LLMベースのエージェントは、推論と環境フィードバックを組み合わせることで、多段階の対話的なタスクを解くことができるが、各エピソードは、同じ状況から始まり、タスクが終了すると、その途中で発見された有用な戦略が失われる。
既存のアプローチは、学習を現在のタスクに制限するか、すべてのエクスペリエンスを、知識タイプを区別せずに単一のアンタイプストアにまとめるか、使用による品質のトラッキング、あるいはライブラリがまだ欠落しているもののバランスをとるかのいずれかです。
我々は、エージェント体験を外部化する勾配のないフレームワークであるUnified Context Evolution (UCE)を導入し、型付き進化可能なコンテキストユニット(ECU)の進化ライブラリとする。
UCEは、経験を4つの補完型(メモリ、戦略、ワークフロー、スキル)に分解します。
スケジューリングモジュールは、ライブラリが最も弱いタイプに対して、各サイクルの生成予算を割り当てる。
2つのインタラクティブなベンチマークで、UCEはALFWorldの成功率を75.4%から96.3%に引き上げ、WebShopタスクスコアを45.1%から61.3%に引き上げ、蓄積したライブラリを代替のバックボーンにリトレーニングせずに転送する。
関連論文リスト
- AEL: Agent Evolving Learning for Open-Ended Environments [43.56685432981852]
本稿では,この障害に対処する2段階のフレームワークであるemphAgent Evolving Learning (ael)を紹介する。
ael はシャープ比 2.13$pm$0.47 を達成し、5つの自己改善法を上回ります。
これは、エージェントの自己改善におけるボトルネックが、アーキテクチャの複雑さを追加するのではなく、経験の使い方を自覚していることを示している。
論文 参考訳(メタデータ) (2026-04-23T14:29:25Z) - SLEA-RL: Step-Level Experience Augmented Reinforcement Learning for Multi-Turn Agentic Training [2.291770711277359]
本研究では,SLEA-RL(Step-Level Experience-Augmented Reinforcement Learning)を提案する。
SLEA-RLは、(i)効率的なクラスタインデックス検索のために構造的に等価な環境状態をグループ化するステップレベルの監視クラスタリング、(ii)スコアベースの入出力とレート制限抽出を通じて成功戦略と失敗パターンを蒸留する自己進化体験ライブラリ、(iii)マルチターンエピソード間のきめ細かな優位性推定のためのステップレベルの信用割当によるポリシー最適化の3つのコンポーネントを通して機能する。
論文 参考訳(メタデータ) (2026-03-18T07:16:18Z) - Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - Fine-tuning with RAG for Improving LLM Learning of New Skills [8.825427873545063]
大規模言語モデル(LLM)エージェントは予測可能な方法で頻繁に失敗する。
本稿では,推論時間検索を蒸留による学習能力に変換する単純なパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-01T19:03:48Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Loop Improvement: An Efficient Approach for Extracting Shared Features from Heterogeneous Data without Central Server [16.249442761713322]
LI(Loop Improvement)は、この分離と特徴抽出を、参加者間の中央サーバやデータ交換を必要とせずに強化する新しい手法である。
パーソナライズされたフェデレーション学習環境では、LIは様々なシナリオで高度なFedALAアルゴリズムよりも精度が高い。
LIの適応性はマルチタスク学習にまで拡張され、タスク間で共通の機能の抽出が合理化され、同時にトレーニングする必要がなくなる。
論文 参考訳(メタデータ) (2024-03-21T12:59:24Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Variational Automatic Curriculum Learning for Sparse-Reward Cooperative
Multi-Agent Problems [42.973910399533054]
協調型マルチエージェント強化学習の課題を解決するために,カリキュラム学習アルゴリズムである変分自動カリキュラム学習(VACL)を導入する。
VACLアルゴリズムはこの変分パラダイムを,タスク拡張とエンティティ進行という2つの実践的要素で実現している。
実験の結果,VACLはスパース・リワード問題の集合を多数のエージェントで解くことがわかった。
論文 参考訳(メタデータ) (2021-11-08T16:35:08Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。