Fugu-MT 論文翻訳(概要): AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents

論文の概要: AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents

arxiv url: http://arxiv.org/abs/2310.09971v4
Date: Thu, 1 Feb 2024 00:42:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 19:00:56.741185
Title: AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents
Title（参考訳）: AMAGO: 適応エージェントのためのスケーラブルなインコンテキスト強化学習
Authors: Jake Grigsby, Linxi Fan, Yuke Zhu
Abstract要約: 本稿では、系列モデルを用いて、一般化、長期記憶、メタ学習の課題に取り組む、コンテキスト内強化学習エージェントであるAMAGOを紹介する。我々のエージェントは拡張性があり、幅広い問題に適用可能であり、メタRLと長期記憶領域において、その強力な性能を実証的に実証する。
参考スコア（独自算出の注目度）: 36.71024242963793
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce AMAGO, an in-context Reinforcement Learning (RL) agent that uses sequence models to tackle the challenges of generalization, long-term memory, and meta-learning. Recent works have shown that off-policy learning can make in-context RL with recurrent policies viable. Nonetheless, these approaches require extensive tuning and limit scalability by creating key bottlenecks in agents' memory capacity, planning horizon, and model size. AMAGO revisits and redesigns the off-policy in-context approach to successfully train long-sequence Transformers over entire rollouts in parallel with end-to-end RL. Our agent is scalable and applicable to a wide range of problems, and we demonstrate its strong performance empirically in meta-RL and long-term memory domains. AMAGO's focus on sparse rewards and off-policy data also allows in-context learning to extend to goal-conditioned problems with challenging exploration. When combined with a multi-goal hindsight relabeling scheme, AMAGO can solve a previously difficult category of open-world domains, where agents complete many possible instructions in procedurally generated environments.
Abstract（参考訳）: 汎用化,長期記憶,メタラーニングといった課題に取り組むために,シーケンスモデルを用いたインコンテキスト強化学習(rl)エージェントであるamagoを紹介する。近年の研究では、非政治的な学習によって、反復的なポリシーでコンテキスト内RLが実現可能であることが示されている。それでもこれらのアプローチは、エージェントのメモリ容量、計画的地平線、モデルサイズに重要なボトルネックを生じさせることによって、広範なチューニングとスケーラビリティの制限を必要とする。 AMAGOは、エンド・ツー・エンドのRLと並行して、ロングシーケンス・トランスフォーマーをロールアウト全体にわたってトレーニングする、オフ・ポリシー・イン・コンテクストのアプローチを再検討し、再設計する。エージェントは拡張性があり、幅広い問題に適用可能であり、メタrlおよび長期記憶領域において経験則的に強力な性能を示す。 AMAGOはスパース報酬や政治外のデータに重点を置いているため、コンテキスト内学習は探索に挑戦しながらゴール条件付き問題にまで拡張することができる。 AMAGOは、マルチゴールのヒンドsight relabelingスキームと組み合わせることで、エージェントが手続き的に生成された環境で多くの可能な命令を完了するような、これまで難しかったオープンワールドドメインのカテゴリを解くことができる。

関連論文リスト

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management [19.980762483472354]
要約に基づくコンテキスト管理をトレーニングに導入する。 UnderlineSUmmarization 拡張 UnderlinePolicy UnderlineOptimization (textttSUPO) でこのフレームワークをインスタンス化する。本研究は,RLエージェントを一定の文脈長制限を超えて訓練するための原則的かつスケーラブルな手法として,要約に基づくコンテキスト管理を確立した。
論文参考訳（メタデータ） (2025-10-08T07:29:22Z)
Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval [5.640810636056805]
MoLERは、MoL強化強化学習を用いて検索を最適化するドメイン認識RAG手法である。 MoLERはRAGシステムの知識ギャップを埋め、特殊なドメインで堅牢でスケーラブルな検索を可能にする。
論文参考訳（メタデータ） (2025-09-08T13:04:07Z)
LLM-Driven Policy Diffusion: Enhancing Generalization in Offline Reinforcement Learning [23.628360655654507]
強化学習(RL)はその強力な意思決定能力で知られ、様々な現実のシナリオに広く適用されている。オフラインデータの制限のため、RLエージェントは新しいタスクや環境に一般化するのに苦労することが多い。 LLM-Driven Policy Diffusion (LLMDPD) は,タスク固有のプロンプトを用いたオフラインRLの一般化を促進する新しい手法である。
論文参考訳（メタデータ） (2025-08-30T04:02:33Z)
DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文参考訳（メタデータ） (2025-07-29T17:55:23Z)
Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。 textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文参考訳（メタデータ） (2025-06-02T04:21:56Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
Iterative Multi-Agent Reinforcement Learning: A Novel Approach Toward Real-World Multi-Echelon Inventory Optimization [0.6990493129893112]
マルチエケロン在庫最適化(MEIO)は、効果的なサプライチェーン管理において重要であるが、その固有の複雑さは重大な課題を引き起こす可能性がある。近年の研究では、深層強化学習(DRL)が従来の強化学習の代替として有望であることがわかった。本論文は複雑化に伴うMEIO問題に対するDRLの適用性について考察する。
論文参考訳（メタデータ） (2025-03-23T20:52:21Z)
From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。 GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文参考訳（メタデータ） (2024-12-11T15:06:25Z)
AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers [28.927809804613215]
我々はTransformerベースの(コンテキスト内での)メタRLの最近の進歩の上に構築する。エージェントのアクターと批評家の目的の両方を分類項に変換する、単純でスケーラブルなソリューションを評価する。この設計は、明示的なタスクラベルを使わずに、オンラインマルチタスク適応とメモリ問題に大きな進歩をもたらす。
論文参考訳（メタデータ） (2024-11-17T22:25:40Z)
Reinforcement Learning for Dynamic Memory Allocation [0.0]
本稿では,RLエージェントがシステムとのインタラクションから連続的に学習し,メモリ管理の戦術を改善する枠組みを提案する。その結果、RLは従来のアロケーション戦略にマッチし、超えるエージェントを訓練できることがわかった。また,アロケータの複雑な要求パターン処理能力を高めるために,従来のアロケーション要求を利用した履歴対応ポリシの可能性についても検討する。
論文参考訳（メタデータ） (2024-10-20T20:13:46Z)
Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文参考訳（メタデータ） (2024-06-08T10:12:00Z)
Hierarchical Continual Reinforcement Learning via Large Language Model [15.837883929274758]
Hi-Coreはハイレベルな知識の伝達を容易にするように設計されている。大規模言語モデル(LLM)による高レベルポリシー定式化 Hi-Coreは様々なCRLタスクの処理の有効性を示しており、一般的なベースラインを上回っている。
論文参考訳（メタデータ） (2024-01-25T03:06:51Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。