論文の概要: DODT: Enhanced Online Decision Transformer Learning through Dreamer's Actor-Critic Trajectory Forecasting
- arxiv url: http://arxiv.org/abs/2410.11359v1
- Date: Tue, 15 Oct 2024 07:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:22.577623
- Title: DODT: Enhanced Online Decision Transformer Learning through Dreamer's Actor-Critic Trajectory Forecasting
- Title(参考訳): DODT:DreamerのActor-Critic Trajectory Forecastingによるオンライン意思決定変換学習
- Authors: Eric Hanchen Jiang, Zhi Zhang, Dinghuai Zhang, Andrew Lizarraga, Chenheng Xu, Yasi Zhang, Siyan Zhao, Zhengjie Xu, Peiyu Yu, Yuer Tang, Deqian Kong, Ying Nian Wu,
- Abstract要約: 本稿では,Dreamerアルゴリズムの予測軌道生成能力とオンライン決定変換器の適応強度を組み合わせた新しい手法を提案する。
提案手法は,Dreamer-produced trajectories が変換器の文脈決定を促進させる並列学習を可能にする。
- 参考スコア(独自算出の注目度): 37.334947053450996
- License:
- Abstract: Advancements in reinforcement learning have led to the development of sophisticated models capable of learning complex decision-making tasks. However, efficiently integrating world models with decision transformers remains a challenge. In this paper, we introduce a novel approach that combines the Dreamer algorithm's ability to generate anticipatory trajectories with the adaptive learning strengths of the Online Decision Transformer. Our methodology enables parallel training where Dreamer-produced trajectories enhance the contextual decision-making of the transformer, creating a bidirectional enhancement loop. We empirically demonstrate the efficacy of our approach on a suite of challenging benchmarks, achieving notable improvements in sample efficiency and reward maximization over existing methods. Our results indicate that the proposed integrated framework not only accelerates learning but also showcases robustness in diverse and dynamic scenarios, marking a significant step forward in model-based reinforcement learning.
- Abstract(参考訳): 強化学習の進歩は、複雑な意思決定タスクを学習できる洗練されたモデルの開発につながった。
しかし、世界モデルを意思決定変換器と効率的に統合することは依然として課題である。
本稿では,Dreamerアルゴリズムの予測軌道生成能力とオンライン決定変換器の適応学習強度を組み合わせた新しい手法を提案する。
提案手法は,Dreamer-produced trajectories が変換器の文脈的意思決定を強化し,双方向の強化ループを生成する並列学習を可能にする。
既存の手法に比べて,サンプル効率と報酬の最大化において顕著な改善を達成し,本手法の有効性を実証的に実証した。
提案した統合フレームワークは,学習を加速するだけでなく,多様なシナリオや動的シナリオにおいて堅牢性を示し,モデルベース強化学習における大きな前進を示唆している。
関連論文リスト
- Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。
提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。
DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文 参考訳(メタデータ) (2024-10-17T23:13:32Z) - Robustness Reprogramming for Representation Learning [18.466637575445024]
十分に訓練されたディープラーニングモデルを考えると、パラメータを変更することなく、対向的あるいはノイズの多い入力摂動に対する堅牢性を高めるために再プログラムできるだろうか?
本稿では,新しい非線形ロバストパターンマッチング手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T18:19:02Z) - Decision Mamba: Reinforcement Learning via Sequence Modeling with Selective State Spaces [0.32634122554914]
マンバは効率的かつ効率的なシーケンスモデリングの高度な能力で知られている。
本稿では,効率的かつ効率的なシーケンスモデリングの高度な能力で知られるMambaフレームワークを,決定変換器アーキテクチャに統合することについて検討する。
論文 参考訳(メタデータ) (2024-03-29T02:25:55Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。