論文の概要: Efficient Planning in a Compact Latent Action Space
- arxiv url: http://arxiv.org/abs/2208.10291v1
- Date: Mon, 22 Aug 2022 13:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:52:12.652283
- Title: Efficient Planning in a Compact Latent Action Space
- Title(参考訳): コンパクト潜在行動空間における効率的な計画
- Authors: Zhengyao Jiang, Tianjun Zhang, Michael Janner, Yueying Li, Tim
Rockt\"aschel, Edward Grefenstette, Yuandong Tian
- Abstract要約: Trajectory Autoencoding Planner (TAP) は、高動作次元にスケールする計画ベースシーケンスモデリングRL法である。
トラジェクトリ変換器の複雑さ$O(D3)$とは異なり、TAPは状態-作用次元に関する計算複雑性を計画する定価$O(C)$を楽しんでいる。
- 参考スコア(独自算出の注目度): 42.40869357513842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While planning-based sequence modelling methods have shown great potential in
continuous control, scaling them to high-dimensional state-action sequences
remains an open challenge due to the high computational complexity and innate
difficulty of planning in high-dimensional spaces. We propose the Trajectory
Autoencoding Planner (TAP), a planning-based sequence modelling RL method that
scales to high state-action dimensionalities. Using a state-conditional
Vector-Quantized Variational Autoencoder (VQ-VAE), TAP models the conditional
distribution of the trajectories given the current state. When deployed as an
RL agent, TAP avoids planning step-by-step in a high-dimensional continuous
action space but instead looks for the optimal latent code sequences by beam
search. Unlike $O(D^3)$ complexity of Trajectory Transformer, TAP enjoys
constant $O(C)$ planning computational complexity regarding state-action
dimensionality $D$. Our empirical evaluation also shows the increasingly strong
performance of TAP with the growing dimensionality. For Adroit robotic hand
manipulation tasks with high state and action dimensionality, TAP surpasses
existing model-based methods, including TT, with a large margin and also beats
strong model-free actor-critic baselines.
- Abstract(参考訳): 計画に基づくシーケンスモデリング手法は連続制御において大きな可能性を秘めているが、高次元のステートアクションシーケンスにスケールすることは、高い計算複雑性と高次元空間における計画の自然な難しさのために、まだ未解決の課題である。
本稿では,高動作次元にスケールする計画ベースシーケンスモデリングRL法であるTorjectory Autoencoding Planner (TAP)を提案する。
状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて、TAPは現在の状態が与えられた軌跡の条件分布をモデル化する。
RLエージェントとしてデプロイされると、TAPは高次元連続的なアクション空間におけるステップバイステップの計画を避けるが、ビームサーチにより最適な遅延コードシーケンスを求める。
軌道トランスフォーマーの$o(d^3)$複雑性とは異なり、tapは状態作用次元に関する計算複雑性を一定の$o(c)$で計画する。
我々の経験的評価は、次元の増大に伴うTAPの強みも示している。
高度な状態と動作の次元を持つロボットハンド操作タスクの場合、tapはttを含む既存のモデルベースのメソッドを大きなマージンで上回り、強力なモデルフリーのアクタ批判ベースラインを上回っている。
関連論文リスト
- Towards aerodynamic surrogate modeling based on $β$-variational autoencoders [0.0]
次元還元法と回帰法を組み合わせたサーロゲートモデルは,高忠実度計算流体力学データの必要性を低減するために不可欠である。
飛行条件を考慮に入れた超音速翼の圧力分布(マッハ数と攻撃角度)を予測するために,潜時空間回帰に基づく代理モデルを提案する。
論文 参考訳(メタデータ) (2024-08-09T09:43:10Z) - GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling [0.0]
S4, S5, LRU, RetNet などの線形リカレントモデルを一般化したシーケンスモデルである GateLoop を開発した。
GateLoopは、自動回帰言語モデリングの既存のモデルよりも経験的に優れている。
提案手法は,データ制御による相対配置情報の提供と解釈できることを示す。
論文 参考訳(メタデータ) (2023-11-03T14:08:39Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - DiMSam: Diffusion Models as Samplers for Task and Motion Planning under Partial Observability [58.75803543245372]
タスク・アンド・モーション・プランニング(TAMP)アプローチは多段階自律ロボット操作の計画に適している。
本稿では,TAMPシステムを用いた拡散モデルの構築により,これらの制限を克服することを提案する。
古典的TAMP, 生成モデリング, 潜伏埋め込みの組み合わせによって, 多段階制約に基づく推論が可能となることを示す。
論文 参考訳(メタデータ) (2023-06-22T20:40:24Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Controlled Gaussian Process Dynamical Models with Application to Robotic
Cloth Manipulation [10.04778213256535]
我々は高次元非線形力学学習のための制御ガウス過程力学モデル(CGPDM)を提案する。
CGPDMは低次元の潜在空間で構成され、外部制御変数が作用できる関連するダイナミクスを持つ。
幅広い動作を一般化し、これまで目に見えない一連の制御動作によって得られた布の動きを確実に予測することができる。
論文 参考訳(メタデータ) (2021-03-11T11:34:12Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Continuous Motion Planning with Temporal Logic Specifications using Deep
Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。
ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。
我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-02T17:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。