論文の概要: Multi-Objective Decision Transformers for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.16379v1
- Date: Thu, 31 Aug 2023 00:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 18:11:38.422076
- Title: Multi-Objective Decision Transformers for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための多目的決定トランスフォーマ
- Authors: Abdelghani Ghanem, Philippe Ciblat, Mounir Ghogho
- Abstract要約: オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
- 参考スコア(独自算出の注目度): 7.386356540208436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) is structured to derive policies from
static trajectory data without requiring real-time environment interactions.
Recent studies have shown the feasibility of framing offline RL as a sequence
modeling task, where the sole aim is to predict actions based on prior context
using the transformer architecture. However, the limitation of this single task
learning approach is its potential to undermine the transformer model's
attention mechanism, which should ideally allocate varying attention weights
across different tokens in the input context for optimal prediction. To address
this, we reformulate offline RL as a multi-objective optimization problem,
where the prediction is extended to states and returns. We also highlight a
potential flaw in the trajectory representation used for sequence modeling,
which could generate inaccuracies when modeling the state and return
distributions. This is due to the non-smoothness of the action distribution
within the trajectory dictated by the behavioral policy. To mitigate this
issue, we introduce action space regions to the trajectory representation. Our
experiments on D4RL benchmark locomotion tasks reveal that our propositions
allow for more effective utilization of the attention mechanism in the
transformer model, resulting in performance that either matches or outperforms
current state-of-the art methods.
- Abstract(参考訳): オフライン強化学習(RL)は、リアルタイム環境相互作用を必要としない静的軌道データからポリシーを導出するように構成されている。
近年の研究では、オフラインRLのフレーミングがシーケンスモデリングタスクとして実現可能であることを示しており、トランスフォーマーアーキテクチャを用いて、事前のコンテキストに基づいてアクションを予測することが唯一の目的である。
しかし、この単一タスク学習アプローチの限界は、最適予測のために入力コンテキストにおける異なるトークン間の異なる注意重みを理想的に割り当てるトランスフォーマーモデルの注意メカニズムを損なう可能性である。
これを解決するために、オフラインRLを多目的最適化問題として再構成し、予測を状態に拡張して返却する。
また、状態と戻り分布をモデル化する際に不正確な結果が得られるような、シーケンスモデリングに使用される軌道表現の潜在的な欠陥も強調する。
これは行動政策によって引き起こされる軌道内の行動分布の非スムース性に起因する。
この問題を緩和するために、軌道表現にアクション空間領域を導入する。
D4RLベンチマークロコモーションタスクの実験により,提案手法はトランスフォーマーモデルにおけるアテンションメカニズムをより効果的に活用することができ,その結果,現在の最先端技術手法に適合または優れる性能が得られることが示された。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Learning Representative Trajectories of Dynamical Systems via
Domain-Adaptive Imitation [0.0]
ドメイン適応軌道模倣のための深層強化学習エージェントDATIを提案する。
実験の結果,DATIは模擬学習と最適制御のベースライン手法よりも優れていることがわかった。
実世界のシナリオへの一般化は、海上交通における異常な動きパターンの発見を通じて示される。
論文 参考訳(メタデータ) (2023-04-19T15:53:48Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。