論文の概要: Latent Plan Transformer: Planning as Latent Variable Inference
- arxiv url: http://arxiv.org/abs/2402.04647v1
- Date: Wed, 7 Feb 2024 08:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 16:15:48.369673
- Title: Latent Plan Transformer: Planning as Latent Variable Inference
- Title(参考訳): latent plan transformer: 潜在変数推論としての計画
- Authors: Deqian Kong, Dehong Xu, Minglu Zhao, Bo Pang, Jianwen Xie, Andrew
Lizarraga, Yuhao Huang, Sirui Xie, Ying Nian Wu
- Abstract要約: 本稿では,Transformerベースの軌道生成器と最終帰路を接続する潜在空間を利用した新しいモデルであるLatent Plan Transformerを紹介する。
テスト期間中、潜在変数はポリシー実行前の期待した戻り値から推論され、計画のアイデアを推論として実現します。
実験により, 最適軌道は, 微妙なクレジット代入, 軌道縫合, 環境問題への適応から, 改善された意思決定を発見できることを示した。
- 参考スコア(独自算出の注目度): 55.42812795441545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In tasks aiming for long-term returns, planning becomes necessary. We study
generative modeling for planning with datasets repurposed from offline
reinforcement learning. Specifically, we identify temporal consistency in the
absence of step-wise rewards as one key technical challenge. We introduce the
Latent Plan Transformer (LPT), a novel model that leverages a latent space to
connect a Transformer-based trajectory generator and the final return. LPT can
be learned with maximum likelihood estimation on trajectory-return pairs. In
learning, posterior sampling of the latent variable naturally gathers
sub-trajectories to form a consistent abstraction despite the finite context.
During test time, the latent variable is inferred from an expected return
before policy execution, realizing the idea of planning as inference. It then
guides the autoregressive policy throughout the episode, functioning as a plan.
Our experiments demonstrate that LPT can discover improved decisions from
suboptimal trajectories. It achieves competitive performance across several
benchmarks, including Gym-Mujoco, Maze2D, and Connect Four, exhibiting
capabilities of nuanced credit assignments, trajectory stitching, and
adaptation to environmental contingencies. These results validate that latent
variable inference can be a strong alternative to step-wise reward prompting.
- Abstract(参考訳): 長期的なリターンを目指すタスクでは、計画が必要である。
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
具体的には、段階的な報酬がない場合の時間的一貫性を重要な技術的課題として挙げる。
本稿では,Transformerベースのトラジェクトリジェネレータと最終リターンを接続するために,遅延空間を利用する新しいモデルであるLatent Plan Transformer(LPT)を紹介する。
LPTはトラジェクティブ-リターンペアの最大推定値で学習することができる。
学習において、潜在変数の後方サンプリングは自然に部分軌跡を集め、有限文脈にもかかわらず一貫した抽象を形成する。
テスト時間中、潜在変数はポリシー実行前の期待リターンから推測され、推論として計画するという考えが実現される。
その後、エピソード全体の自己回帰政策をガイドし、計画として機能する。
実験の結果,LPTは最適軌道から改善された決定を発見できることがわかった。
Gym-Mujoco、Maze2D、Connect Fourなどいくつかのベンチマークで競合性能を達成し、微妙なクレジット割り当て、軌道縫合、環境問題への適応能力を示している。
これらの結果は、潜在変数推論がステップ毎の報酬プロンプトの強力な代替となることを検証している。
関連論文リスト
- Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Uncertainty-Aware Decision Transformer for Stochastic Driving
Environments [37.31853034449015]
環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。
UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。
私たちは、様々な駆動シナリオにおけるUNRESTの優れたパフォーマンスと、不確実性推定戦略のパワーを示します。
論文 参考訳(メタデータ) (2023-09-28T12:44:51Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Future-conditioned Unsupervised Pretraining for Decision Transformer [19.880628629512504]
我々は、教師なしRL事前学習のための概念的にシンプルなアプローチとして、事前学習型決定変換器(PDT)を提案する。
PDTは、訓練中の行動を予測するために、将来の軌跡情報を特権的な文脈として活用する。
オフラインデータから多様な振る舞いを抽出し、オンラインの微調整によってハイリターン動作を制御できる。
論文 参考訳(メタデータ) (2023-05-26T07:05:08Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。