論文の概要: Latent Plan Transformer: Planning as Latent Variable Inference
- arxiv url: http://arxiv.org/abs/2402.04647v2
- Date: Tue, 28 May 2024 16:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 03:28:21.415486
- Title: Latent Plan Transformer: Planning as Latent Variable Inference
- Title(参考訳): 潜時計画変換器:潜時変数推論としての計画
- Authors: Deqian Kong, Dehong Xu, Minglu Zhao, Bo Pang, Jianwen Xie, Andrew Lizarraga, Yuhao Huang, Sirui Xie, Ying Nian Wu,
- Abstract要約: オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースの軌道生成器と最終帰路を接続する潜在空間を利用した新しいモデルであるLatent Plan Transformerを紹介する。
テスト時には、遅延変数はポリシー実行前の期待した戻り値から推論され、計画のアイデアを推論として実現します。
- 参考スコア(独自算出の注目度): 53.419249906014194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In tasks aiming for long-term returns, planning becomes essential. We study generative modeling for planning with datasets repurposed from offline reinforcement learning. Specifically, we identify temporal consistency in the absence of step-wise rewards as one key technical challenge. We introduce the Latent Plan Transformer (LPT), a novel model that leverages a latent space to connect a Transformer-based trajectory generator and the final return. LPT can be learned with maximum likelihood estimation on trajectory-return pairs. In learning, posterior sampling of the latent variable naturally integrates sub-trajectories to form a consistent abstraction despite the finite context. At test time, the latent variable is inferred from an expected return before policy execution, realizing the idea of planning as inference. Our experiments demonstrate that LPT can discover improved decisions from suboptimal trajectories, achieving competitive performance across several benchmarks, including Gym-Mujoco, Franka Kitchen, Maze2D, and Connect Four. It exhibits capabilities in nuanced credit assignments, trajectory stitching, and adaptation to environmental contingencies. These results validate that latent variable inference can be a strong alternative to step-wise reward prompting.
- Abstract(参考訳): 長期的なリターンを目指すタスクにおいては、計画が不可欠である。
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
具体的には、段階的な報酬がない場合の時間的一貫性を重要な技術的課題として挙げる。
本稿では,Transformerベースのトラジェクトリジェネレータと最終リターンを接続するために,遅延空間を利用する新しいモデルであるLatent Plan Transformer(LPT)を紹介する。
LPTはトラジェクティブ-リターンペアの最大推定値で学習することができる。
学習において、潜在変数の後方サンプリングは、有限コンテキストにもかかわらず、自然にサブトラジェクトリを統合して一貫した抽象化を形成する。
テスト時には、遅延変数はポリシー実行前の期待した戻り値から推論され、計画のアイデアを推論として実現します。
Gym-Mujoco, Franka Kitchen, Maze2D, Connect Four など,複数のベンチマークで競合性能を達成し, 最適軌道からの精度向上を実証した。
微妙なクレジット割り当て、軌道縫合、環境問題への適応の能力を示す。
これらの結果は、潜伏変数推論がステップワイズ報酬プロンプトの強力な代替となることを証明している。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models [48.559185522099625]
自動回帰学習機構を用いてトランスフォーマーに基づく言語モデルにおける計画機能の開発について検討する。
我々の研究は、自己回帰学習の内部メカニズムがネットワークにおける計画をどのように実現しているかについて、新たな光を当てた。
論文 参考訳(メタデータ) (2024-05-15T09:59:37Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Uncertainty-Aware Decision Transformer for Stochastic Driving
Environments [37.31853034449015]
環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。
UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。
私たちは、様々な駆動シナリオにおけるUNRESTの優れたパフォーマンスと、不確実性推定戦略のパワーを示します。
論文 参考訳(メタデータ) (2023-09-28T12:44:51Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。