論文の概要: ACT: Empowering Decision Transformer with Dynamic Programming via
Advantage Conditioning
- arxiv url: http://arxiv.org/abs/2309.05915v1
- Date: Tue, 12 Sep 2023 02:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:39:53.518037
- Title: ACT: Empowering Decision Transformer with Dynamic Programming via
Advantage Conditioning
- Title(参考訳): ACT: アドバンテージ・コンディショニングによる動的プログラミングによる決定変換器の強化
- Authors: Chenxiao Gao, Chenyang Wu, Mingjun Cao, Rui Kong, Zongzhang Zhang,
Yang Yu
- Abstract要約: 決定変換器(DT)は、所望の将来のリターンで条件付けられたアクションを生成する。
我々はDTの弱点を克服するために動的プログラミングでDTを強化することを提案する。
本手法は, 環境条件によらず, 効果的な軌道縫合とロバストな動作生成を実証する。
- 参考スコア(独自算出の注目度): 19.02836010747026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision Transformer (DT), which employs expressive sequence modeling
techniques to perform action generation, has emerged as a promising approach to
offline policy optimization. However, DT generates actions conditioned on a
desired future return, which is known to bear some weaknesses such as the
susceptibility to environmental stochasticity. To overcome DT's weaknesses, we
propose to empower DT with dynamic programming. Our method comprises three
steps. First, we employ in-sample value iteration to obtain approximated value
functions, which involves dynamic programming over the MDP structure. Second,
we evaluate action quality in context with estimated advantages. We introduce
two types of advantage estimators, IAE and GAE, which are suitable for
different tasks. Third, we train an Advantage-Conditioned Transformer (ACT) to
generate actions conditioned on the estimated advantages. Finally, during
testing, ACT generates actions conditioned on a desired advantage. Our
evaluation results validate that, by leveraging the power of dynamic
programming, ACT demonstrates effective trajectory stitching and robust action
generation in spite of the environmental stochasticity, outperforming baseline
methods across various benchmarks. Additionally, we conduct an in-depth
analysis of ACT's various design choices through ablation studies.
- Abstract(参考訳): 動作生成に表現的シーケンスモデリング技術を用いる決定変換器 (DT) は, オフラインポリシー最適化への有望なアプローチとして登場した。
しかし、DTは、望まれる将来のリターンに条件づけられたアクションを生成し、環境確率性への感受性などの弱点を負うことが知られている。
DTの弱点を克服するために、動的プログラミングによるDTの強化を提案する。
この方法は3つのステップからなる。
まず,mdp構造上の動的プログラミングを含む近似値関数を得るために,サンプル値反復を用いる。
第2に,行動の質を推定的な利点で評価する。
我々は,異なるタスクに適した2種類の利点推定器,IAEとGAEを導入する。
第3に,推定したアドバンテージに基づくアクションを生成するために,アドバンテージコンディショルドトランスフォーマ(act)をトレーニングする。
最後に、テスト中にACTは、望ましい優位性で条件付けられたアクションを生成する。
本評価の結果から,actは動的プログラミングのパワーを活用し,環境的確率性にも拘わらず,効果的な軌道ステッチングとロバストなアクション生成を実証し,様々なベンチマークでベースライン法を上回った。
さらに,ACTの様々な設計選択をアブレーション研究を通じて詳細に分析する。
関連論文リスト
- Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法と比較すると、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for
Preconditioning Matrix [9.629238108795013]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
実験の結果,AGDは最先端技術(SOTA)よりも優れており,高い競争力や予測性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - The Quality-Diversity Transformer: Generating Behavior-Conditioned
Trajectories with Decision Transformers [3.185440619417202]
品質多様性アルゴリズムは、多様かつ効率的なポリシーのレパートリーを生成するのに有効であることが証明されている。
不確実な環境では、ポリシーは堅牢性と再現性に欠ける可能性がある。
本稿では,2つのメカニズムに基づく行動条件付き軌道生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-27T19:39:49Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Neural TMDlayer: Modeling Instantaneous flow of features via SDE
Generators [37.92379202320938]
本稿では, 微分方程式(SDE)に基づくアイデアが, コンピュータビジョンの一連の問題に対して, 既存のアルゴリズムに新たな修正をもたらすかを検討する。
ショットラーニング,ポイントクラウドトランスフォーマー,深部変分セグメンテーションなど,多数のビジョンタスクについて有望な実験を行った。
論文 参考訳(メタデータ) (2021-08-19T19:54:04Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。