論文の概要: Agentic Episodic Control
- arxiv url: http://arxiv.org/abs/2506.01442v1
- Date: Mon, 02 Jun 2025 08:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.109394
- Title: Agentic Episodic Control
- Title(参考訳): エージェント・エピソード制御
- Authors: Xidong Yang, Wenhao Li, Junjie Sheng, Chuyun Shen, Yun Hua, Xiangfeng Wang,
- Abstract要約: 強化学習(RL)は、ゲームプレイから科学的発見、AIアライメントに至るまで、AIのブレークスルーを推進してきた。
近年の進歩は、豊かな世界知識と推論能力を持つ大規模言語モデルが、意味的状態モデリングとタスクに依存しない計画を可能にすることで、RLを補完する可能性があることを示唆している。
本稿では,RLを大規模言語モデルと統合して意思決定を促進する新しいアーキテクチャであるエージェント・エピソディクス・コントロール(AEC)を提案する。
- 参考スコア(独自算出の注目度): 16.94652073521156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has driven breakthroughs in AI, from game-play to scientific discovery and AI alignment. However, its broader applicability remains limited by challenges such as low data efficiency and poor generalizability. Recent advances suggest that large language models, with their rich world knowledge and reasoning capabilities, could complement RL by enabling semantic state modeling and task-agnostic planning. In this work, we propose the Agentic Episodic Control (AEC), a novel architecture that integrates RL with LLMs to enhance decision-making. The AEC can leverage a large language model (LLM) to map the observations into language-grounded embeddings, which further can be stored in an episodic memory for rapid retrieval of high-value experiences. Simultaneously, a World-Graph working memory module is utilized to capture structured environmental dynamics in order to enhance relational reasoning. Furthermore, a lightweight critical state detector dynamically arbitrates between the episodic memory recall and the world-model-guided exploration. On the whole, by combining the trial-and-error learning scheme with LLM-derived semantic priors, the proposed AEC can improve both data efficiency and generalizability in reinforcement learning. In experiments on BabyAI-Text benchmark tasks, AEC demonstrates substantial improvements over existing baselines, especially on complex and generalization tasks like FindObj, where it outperforms the best baseline by up to 76%. The proposed AEC framework bridges the strengths of numeric reinforcement learning and symbolic reasoning, which provides a pathway toward more adaptable and sample-efficient agents.
- Abstract(参考訳): 強化学習(RL)は、ゲームプレイから科学的発見、AIアライメントに至るまで、AIのブレークスルーを推進してきた。
しかし、その適用性は、データ効率の低下や一般化性の低さといった課題によって制限されている。
近年の進歩は、豊かな世界知識と推論能力を持つ大規模言語モデルが、意味的状態モデリングとタスクに依存しない計画を可能にすることで、RLを補完する可能性があることを示唆している。
本稿では, RL と LLM を統合する新しいアーキテクチャであるエージェント・エピソード・コントロール (AEC) を提案する。
AECは、大きな言語モデル(LLM)を利用して、観測結果を言語基底の埋め込みにマッピングすることができる。
同時に、World-Graphワーキングメモリモジュールを使用して、リレーショナル推論を強化するために、構造化された環境ダイナミクスをキャプチャする。
さらに、軽量臨界状態検出器は、エピソードメモリリコールと世界モデル誘導探索とを動的に調停する。
全体として、試行錯誤学習スキームとLLMに基づくセマンティックプリエンスを組み合わせることで、AECは強化学習におけるデータ効率と一般化性の両方を改善することができる。
BabyAI-Textベンチマークタスクの実験では、特にFindObjのような複雑な一般化タスクにおいて、既存のベースラインよりも大幅に改善されている。
提案したAECフレームワークは、数値強化学習と記号推論の長所を橋渡しし、より適応的でサンプル効率の良いエージェントへの道筋を提供する。
関連論文リスト
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Knowledge Distillation and Dataset Distillation of Large Language Models: Emerging Trends, Challenges, and Future Directions [35.77671870515212]
LLM(Large Language Models)の指数関数的成長は、絶え間なく拡大する計算およびデータ要求を満たすための効率的な戦略の必要性を強調し続けている。
本調査は、知識蒸留(KD)とデータセット蒸留(DD)の2つの相補的パラダイムを包括的に分析する。
論文 参考訳(メタデータ) (2025-04-20T23:50:23Z) - Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models [53.4530106173067]
強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。
RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。
この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
論文 参考訳(メタデータ) (2025-04-03T04:46:17Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents [18.369668601864575]
AriGraphは、環境を探索しながら意味記憶とエピソード記憶を統合するメモリグラフである。
我々は,Ariadne LLMエージェントが対話型テキストゲーム環境における複雑なタスクを,人間プレイヤーでも効果的に処理できることを実証した。
論文 参考訳(メタデータ) (2024-07-05T09:06:47Z) - Large Language Model Enhanced Knowledge Representation Learning: A Survey [15.602891714371342]
知識表現学習(KRL)は、知識グラフから下流タスクへの記号的知識の適用を可能にするために重要である。
この研究は、これらの進化する領域における新たな研究方向を同時に特定しながら、下流のタスクの広範な概要を提供する。
論文 参考訳(メタデータ) (2024-07-01T03:37:35Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - BiERL: A Meta Evolutionary Reinforcement Learning Framework via Bilevel
Optimization [34.24884427152513]
双レベル最適化(BiERL)による一般的なメタERLフレームワークを提案する。
我々は、内部レベルの進化した経験を情報的人口表現に組み込むエレガントなメタレベルアーキテクチャを設計する。
我々は MuJoCo と Box2D タスクの広範な実験を行い、一般的なフレームワークとして BiERL が様々なベースラインを上回り、ERL アルゴリズムの多様性の学習性能を一貫して向上することを検証する。
論文 参考訳(メタデータ) (2023-08-01T09:31:51Z) - PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。