論文の概要: Enhancing data efficiency in reinforcement learning: a novel imagination
mechanism based on mesh information propagation
- arxiv url: http://arxiv.org/abs/2309.14243v1
- Date: Mon, 25 Sep 2023 16:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 14:49:22.742905
- Title: Enhancing data efficiency in reinforcement learning: a novel imagination
mechanism based on mesh information propagation
- Title(参考訳): 強化学習におけるデータ効率の向上:メッシュ情報伝達に基づく新しい想像機構
- Authors: Zihang Wang, Maowei Jiang
- Abstract要約: 強化学習(RL)アルゴリズムは、限られたデータ効率の課題に直面している。
人間の類似推論能力に触発されて,新しいメッシュ情報伝達機構を導入する。
Imaginationのメカニズムは4つの主要なSOTA RLアルゴリズムを継続的に促進することを示す。
- 参考スコア(独自算出の注目度): 0.3729614006275886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms face the challenge of limited data
efficiency, particularly when dealing with high-dimensional state spaces and
large-scale problems. Most RL methods often rely solely on state transition
information within the same episode when updating the agent's Critic, which can
lead to low data efficiency and sub-optimal training time consumption. Inspired
by human-like analogical reasoning abilities, we introduce a novel mesh
information propagation mechanism, termed the 'Imagination Mechanism (IM)',
designed to significantly enhance the data efficiency of RL algorithms.
Specifically, IM enables information generated by a single sample to be
effectively broadcasted to different states, instead of simply transmitting in
the same episode and it allows the model to better understand the
interdependencies between states and learn scarce sample information more
efficiently. To promote versatility, we extend the imagination mechanism to
function as a plug-and-play module that can be seamlessly and fluidly
integrated into other widely adopted RL models. Our experiments demonstrate
that Imagination mechanism consistently boosts four mainstream SOTA
RL-algorithms, such as SAC, PPO, DDPG, and DQN, by a considerable margin,
ultimately leading to superior performance than before across various tasks.
For access to our code and data, please visit
https://github.com/Zero-coder/FECAM.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは、特に高次元の状態空間や大規模問題を扱う場合、データ効率の限界に直面する。
ほとんどのRLメソッドは、エージェントのCriticを更新する際に、同じエピソード内の状態遷移情報にのみ依存することが多く、これはデータ効率の低下と準最適トレーニング時間の消費につながる。
人間の類似推論能力に触発されて,RLアルゴリズムのデータ効率を大幅に向上させるために,新しいメッシュ情報伝達機構「Imagination Mechanism (IM)」を導入する。
具体的には、単一のサンプルによって生成された情報を、単に同じエピソードを送信するのではなく、異なる状態に効果的にブロードキャストすることができ、モデルが状態間の相互依存性をよりよく理解し、少ないサンプル情報をより効率的に学習することができる。
汎用性を促進するため,他の広く採用されているrlモデルにシームレスに,流動的に統合可能なプラグアンドプレイモジュールとして機能するために,イマジネーション機構を拡張する。
SAC, PPO, DDPG, DQN などの 4 つの主要な SOTA RL アルゴリズムを一定間隔で向上させることで, 従来よりも優れた性能が得られることを示した。
コードとデータにアクセスするには、https://github.com/Zero-coder/FECAMをご覧ください。
関連論文リスト
- Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory [7.771348413934219]
連続RLでは、学習者は定常的でないシーケンシャルなタスクと対話し、以前の知識を忘れずに新しいタスクを学習する必要がある。
本稿では,連続RLにおけるデータ拡張の有効性について検討する。
本稿では,乱数振幅スケーリング,ステートスウィッチ,ミックスアップ,逆数拡張,Adv-GEMなどのデータ拡張が,既存の連続RLアルゴリズムを改善することを示す。
論文 参考訳(メタデータ) (2024-08-24T03:43:35Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Can Increasing Input Dimensionality Improve Deep Reinforcement Learning? [15.578423102700764]
本稿では,ニューラルネットを用いたオンライン特徴抽出ネットワーク(OFENet)を提案する。
我々はRLエージェントが低次元状態観測よりも高次元表現でより効率的に学習できることを示す。
論文 参考訳(メタデータ) (2020-03-03T16:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。