論文の概要: Learning Task Belief Similarity with Latent Dynamics for Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.19785v1
- Date: Tue, 24 Jun 2025 16:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.733002
- Title: Learning Task Belief Similarity with Latent Dynamics for Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習のための潜在ダイナミクスを用いたタスク信念の類似性学習
- Authors: Menglong Zhang, Fuyuan Qian,
- Abstract要約: 近年のベイズ適応ディープRLアプローチは、しばしば環境の報酬信号の再構成に依存している。
我々は,ベイズ適応型MDPにおけるタスク信念の類似性を測定することで,新しいメタRLフレームワークSimBeliefを提案する。
提案手法は, スパース報酬のMuJoCoとパンダジャムのタスクにおいて, 最先端のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-reinforcement learning requires utilizing prior task distribution information obtained during exploration to rapidly adapt to unknown tasks. The efficiency of an agent's exploration hinges on accurately identifying the current task. Recent Bayes-Adaptive Deep RL approaches often rely on reconstructing the environment's reward signal, which is challenging in sparse reward settings, leading to suboptimal exploitation. Inspired by bisimulation metrics, which robustly extracts behavioral similarity in continuous MDPs, we propose SimBelief-a novel meta-RL framework via measuring similarity of task belief in Bayes-Adaptive MDP (BAMDP). SimBelief effectively extracts common features of similar task distributions, enabling efficient task identification and exploration in sparse reward environments. We introduce latent task belief metric to learn the common structure of similar tasks and incorporate it into the specific task belief. By learning the latent dynamics across task distributions, we connect shared latent task belief features with specific task features, facilitating rapid task identification and adaptation. Our method outperforms state-of-the-art baselines on sparse reward MuJoCo and panda-gym tasks.
- Abstract(参考訳): メタ強化学習では、未知のタスクに迅速に適応するために、探索中に得られたタスク分布情報を活用する必要がある。
エージェントの探索の効率は、現在のタスクを正確に識別することに集中する。
近年のベイズ・アダプティブ・ディープRLアプローチは環境の報酬信号の再構成に頼っていることが多い。
連続型MDPにおける行動類似性を強く抽出するバイシミュレーション指標に着想を得て,ベイズ適応MDP(BAMDP)におけるタスク信頼の類似性を測定することで,SimBeliefというメタRLフレームワークを提案する。
SimBeliefは、類似したタスク分布の共通機能を効果的に抽出し、スパース報酬環境における効率的なタスク識別と探索を可能にする。
我々は、類似タスクの共通構造を学習し、それを特定のタスク信念に組み込むために、潜在タスク信念メートル法を導入する。
タスク分布にまたがる潜在ダイナミクスを学習することにより、共有潜在タスク信念特徴と特定のタスク特徴を結合し、迅速なタスク識別と適応を容易にする。
提案手法は, スパース報酬のMuJoCoとパンダジャムのタスクにおいて, 最先端のベースラインを上回ります。
関連論文リスト
- Task-Aware Virtual Training: Enhancing Generalization in Meta-Reinforcement Learning for Out-of-Distribution Tasks [4.374837991804085]
Task-Aware Virtual Training (TAVT)は、トレーニングとアウト・オブ・ディストリビューション(OOD)シナリオの両方のタスク特性をキャプチャする新しいアルゴリズムである。
数値計算の結果,TAVT は様々な MuJoCo および MetaWorld 環境における OOD タスクの一般化を著しく促進することが示された。
論文 参考訳(メタデータ) (2025-02-05T02:31:50Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。