論文の概要: Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2406.12359v1
- Date: Tue, 18 Jun 2024 07:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:16:07.413960
- Title: Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents
- Title(参考訳): データサンプリングのメモリシーケンス長がメタ強化学習エージェントの適応に及ぼす影響
- Authors: Menglong Zhang, Fuyuan Qian, Quanying Liu,
- Abstract要約: メタRLエージェントの探索と適応性に及ぼすデータサンプリング戦略の影響について検討する。
解析の結果,長メモリおよび短メモリシーケンスサンプリング戦略がメタRLエージェントの表現能力および適応能力に影響を及ぼすことが明らかとなった。
- 参考スコア(独自算出の注目度): 1.971759811837406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fast adaptation to new tasks is extremely important for embodied agents in the real world. Meta-reinforcement learning (meta-RL) has emerged as an effective method to enable fast adaptation in unknown environments. Compared to on-policy meta-RL algorithms, off-policy algorithms rely heavily on efficient data sampling strategies to extract and represent the historical trajectories. However, little is known about how different data sampling methods impact the ability of meta-RL agents to represent unknown environments. Here, we investigate the impact of data sampling strategies on the exploration and adaptability of meta-RL agents. Specifically, we conducted experiments with two types of off-policy meta-RL algorithms based on Thompson sampling and Bayes-optimality theories in continuous control tasks within the MuJoCo environment and sparse reward navigation tasks. Our analysis revealed the long-memory and short-memory sequence sampling strategies affect the representation and adaptive capabilities of meta-RL agents. We found that the algorithm based on Bayes-optimality theory exhibited more robust and better adaptability than the algorithm based on Thompson sampling, highlighting the importance of appropriate data sampling strategies for the agent's representation of an unknown environment, especially in the case of sparse rewards.
- Abstract(参考訳): 新しいタスクへの迅速な適応は、実世界のエンボディエージェントにとって極めて重要である。
メタ強化学習(Meta-RL)は、未知の環境での迅速な適応を可能にする効果的な方法として登場した。
オンラインメタRLアルゴリズムと比較して、オフポリシーアルゴリズムは歴史的軌跡を抽出し表現するための効率的なデータサンプリング戦略に大きく依存している。
しかし、異なるデータサンプリング方法が、未知の環境を表現するメタRLエージェントの能力に与える影響についてはほとんど分かっていない。
本稿では,メタRLエージェントの探索と適応性に及ぼすデータサンプリング戦略の影響について検討する。
具体的には,MuJoCo環境における連続制御タスクにおけるトンプソンサンプリングとベイズ最適理論に基づく2種類の非政治メタRLアルゴリズムの実験を行った。
解析の結果,長メモリおよび短メモリシーケンスサンプリング戦略がメタRLエージェントの表現能力および適応能力に影響を及ぼすことが明らかとなった。
ベイズ最適性理論に基づくアルゴリズムは、トンプソンサンプリングに基づくアルゴリズムよりも頑健で適応性が高いことを示し、特にスパース報酬の場合において、エージェントが未知の環境を表現するための適切なデータサンプリング戦略の重要性を強調した。
関連論文リスト
- Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Mean-AP Guided Reinforced Active Learning for Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。
MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。
提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文 参考訳(メタデータ) (2023-10-12T14:59:22Z) - Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit [0.0]
本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Smpling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。
GUESSは, 実験例における他のサロゲート型戦略と比較して, 平均的な試料効率で達成された。
論文 参考訳(メタデータ) (2023-09-29T19:49:39Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer
Sampling [2.501153467354696]
経験リプレイバッファのための最先端サンプリング戦略は強化学習エージェントの性能を向上させる。
Q値推定に不確実性は含まない。
本稿では,探索・探索トレードオフを利用した新しいサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-24T18:55:41Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Hindsight Foresight Relabeling for Meta-Reinforcement Learning [20.755104281986757]
メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは少数の経験から新しい行動を学ぶことができる。
メタRLエージェントは、ほんのわずかな軌道を経験した後、テスト時に新しいタスクに迅速に適応できるが、メタトレーニングプロセスはサンプリング非効率である。
我々はHFR(Hindsight Foresight Relabeling)と呼ばれる新しいラベリング手法を考案した。
HFRは、様々なメタRLタスクにおける他のレバーベリングメソッドと比較してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-18T23:49:14Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。