Fugu-MT 論文翻訳(概要): Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data

論文の概要: Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data

arxiv url: http://arxiv.org/abs/2501.07346v1
Date: Mon, 13 Jan 2025 14:11:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 19:20:14.147243
Title: Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data
Title（参考訳）: オフラインデータからのメタ学習目的によるオンライン強化学習の促進
Authors: Shilong Deng, Zetao Zheng, Hongcai He, Paul Weng, Jie Shao,
Abstract要約: 強化学習(RL)における大きな課題は、スパース報酬から最適な政策を学ぶことの難しさである。我々は,オフラインデータから知識を抽出する目的をメタ学習するGILD(Generalized Imitation Learning from Demonstration)を開発した。課題である4つのMuJoCoタスクにおいて、GILDで拡張された3つのRLアルゴリズムが、最先端の手法を大幅に上回っていることを示す。
参考スコア（独自算出の注目度）: 8.583014846046886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A major challenge in Reinforcement Learning (RL) is the difficulty of learning an optimal policy from sparse rewards. Prior works enhance online RL with conventional Imitation Learning (IL) via a handcrafted auxiliary objective, at the cost of restricting the RL policy to be sub-optimal when the offline data is generated by a non-expert policy. Instead, to better leverage valuable information in offline data, we develop Generalized Imitation Learning from Demonstration (GILD), which meta-learns an objective that distills knowledge from offline data and instills intrinsic motivation towards the optimal policy. Distinct from prior works that are exclusive to a specific RL algorithm, GILD is a flexible module intended for diverse vanilla off-policy RL algorithms. In addition, GILD introduces no domain-specific hyperparameter and minimal increase in computational cost. In four challenging MuJoCo tasks with sparse rewards, we show that three RL algorithms enhanced with GILD significantly outperform state-of-the-art methods.
Abstract（参考訳）: 強化学習(RL)における大きな課題は、スパース報酬から最適な政策を学ぶことの難しさである。従来のImitation Learning (IL) によるオンラインRLの強化は、非専門家ポリシーによってオフラインデータが生成される場合、RLポリシーを最適以下に制限するコストがかかる。代わりに、オフラインデータから知識を抽出し、最適なポリシーに向けた本質的なモチベーションを注入する目的をメタ学習する汎用Imitation Learning from Demonstration (GILD)を開発した。 GILDは、特定のRLアルゴリズムに排他的な以前の作業と異なり、多様なバニラオフポリティRLアルゴリズムを意図した柔軟なモジュールである。さらに、GILDはドメイン固有のハイパーパラメータを導入せず、計算コストも最小限に抑えている。課題である4つのMuJoCoタスクにおいて、GILDで拡張された3つのRLアルゴリズムが、最先端の手法を大幅に上回っていることを示す。

関連論文リスト

Yes, Q-learning Helps Offline In-Context RL [69.26691452160505]
本研究では,オフラインのテキスト内強化学習フレームワークにおけるRL目標の統合について検討する。 RL目標の最適化は、広く採用されているアルゴリズム蒸留(AD)と比較して、平均で約30%向上することを示した。私たちの結果は、バリュー学習中に保守性を追加することで、テストされたほぼすべての設定にさらなる改善がもたらされることも示しています。
論文参考訳（メタデータ） (2025-02-24T21:29:06Z)
Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文参考訳（メタデータ） (2024-06-13T17:07:49Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。 ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文参考訳（メタデータ） (2022-01-31T18:39:27Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
Representation Matters: Offline Pretraining for Sequential Decision Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文参考訳（メタデータ） (2021-02-11T02:38:12Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)
Offline Meta-Reinforcement Learning with Advantage Weighting [125.21298190780259]
本稿では,オフラインメタ強化学習(オフラインメタRL)問題設定を導入し,この設定でよく機能するアルゴリズムを提案する。オフラインメタRLは、修正済みデータの大規模なバッチ上でモデルを事前学習する、広く成功した教師付き学習戦略に類似している。本稿では,メタトレーニングの内ループと外ループの両方に対して,シンプルかつ教師付き回帰目標を用いた最適化に基づくメタ学習アルゴリズムである,アドバンテージ重み付きメタアクタ批判(MACAW)を提案する。
論文参考訳（メタデータ） (2020-08-13T17:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。