論文の概要: ACT: Empowering Decision Transformer with Dynamic Programming via
Advantage Conditioning
- arxiv url: http://arxiv.org/abs/2309.05915v2
- Date: Thu, 1 Feb 2024 13:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:12:50.478079
- Title: ACT: Empowering Decision Transformer with Dynamic Programming via
Advantage Conditioning
- Title(参考訳): ACT: アドバンテージ・コンディショニングによる動的プログラミングによる決定変換器の強化
- Authors: Chen-Xiao Gao, Chenyang Wu, Mingjun Cao, Rui Kong, Zongzhang Zhang,
Yang Yu
- Abstract要約: 決定変換器(DT)は、所望の将来のリターンで条件付けられたアクションを生成する。
我々はDTの弱点を克服するために動的プログラミングでDTを強化することを提案する。
本手法は, 環境条件によらず, 効果的な軌道縫合とロバストな動作生成を実証する。
- 参考スコア(独自算出の注目度): 19.02836010747026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision Transformer (DT), which employs expressive sequence modeling
techniques to perform action generation, has emerged as a promising approach to
offline policy optimization. However, DT generates actions conditioned on a
desired future return, which is known to bear some weaknesses such as the
susceptibility to environmental stochasticity. To overcome DT's weaknesses, we
propose to empower DT with dynamic programming. Our method comprises three
steps. First, we employ in-sample value iteration to obtain approximated value
functions, which involves dynamic programming over the MDP structure. Second,
we evaluate action quality in context with estimated advantages. We introduce
two types of advantage estimators, IAE and GAE, which are suitable for
different tasks. Third, we train an Advantage-Conditioned Transformer (ACT) to
generate actions conditioned on the estimated advantages. Finally, during
testing, ACT generates actions conditioned on a desired advantage. Our
evaluation results validate that, by leveraging the power of dynamic
programming, ACT demonstrates effective trajectory stitching and robust action
generation in spite of the environmental stochasticity, outperforming baseline
methods across various benchmarks. Additionally, we conduct an in-depth
analysis of ACT's various design choices through ablation studies. Our code is
available at https://github.com/LAMDA-RL/ACT.
- Abstract(参考訳): 動作生成に表現的シーケンスモデリング技術を用いる決定変換器 (DT) は, オフラインポリシー最適化への有望なアプローチとして登場した。
しかし、DTは、望まれる将来のリターンに条件づけられたアクションを生成し、環境確率性への感受性などの弱点を負うことが知られている。
DTの弱点を克服するために、動的プログラミングによるDTの強化を提案する。
この方法は3つのステップからなる。
まず,mdp構造上の動的プログラミングを含む近似値関数を得るために,サンプル値反復を用いる。
第2に,行動の質を推定的な利点で評価する。
我々は,異なるタスクに適した2種類の利点推定器,IAEとGAEを導入する。
第3に,推定したアドバンテージに基づくアクションを生成するために,アドバンテージコンディショルドトランスフォーマ(act)をトレーニングする。
最後に、テスト中にACTは、望ましい優位性で条件付けられたアクションを生成する。
本評価の結果から,actは動的プログラミングのパワーを活用し,環境的確率性にも拘わらず,効果的な軌道ステッチングとロバストなアクション生成を実証し,様々なベンチマークでベースライン法を上回った。
さらに,ACTの様々な設計選択をアブレーション研究を通じて詳細に分析する。
私たちのコードはhttps://github.com/lamda-rl/actで利用可能です。
関連論文リスト
- PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Autoregressive Action Sequence Learning for Robotic Manipulation [32.9580007141312]
既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。
我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。
本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T04:07:15Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [13.163784646113214]
最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。
まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。
第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。