論文の概要: Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference
- arxiv url: http://arxiv.org/abs/2402.04647v3
- Date: Thu, 31 Oct 2024 07:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:11.658522
- Title: Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference
- Title(参考訳): 軌道抽象のための潜時計画変換器:潜時空間推論としての計画
- Authors: Deqian Kong, Dehong Xu, Minglu Zhao, Bo Pang, Jianwen Xie, Andrew Lizarraga, Yuhao Huang, Sirui Xie, Ying Nian Wu,
- Abstract要約: オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
- 参考スコア(独自算出の注目度): 53.419249906014194
- License:
- Abstract: In tasks aiming for long-term returns, planning becomes essential. We study generative modeling for planning with datasets repurposed from offline reinforcement learning. Specifically, we identify temporal consistency in the absence of step-wise rewards as one key technical challenge. We introduce the Latent Plan Transformer (LPT), a novel model that leverages a latent variable to connect a Transformer-based trajectory generator and the final return. LPT can be learned with maximum likelihood estimation on trajectory-return pairs. In learning, posterior sampling of the latent variable naturally integrates sub-trajectories to form a consistent abstraction despite the finite context. At test time, the latent variable is inferred from an expected return before policy execution, realizing the idea of planning as inference. Our experiments demonstrate that LPT can discover improved decisions from sub-optimal trajectories, achieving competitive performance across several benchmarks, including Gym-Mujoco, Franka Kitchen, Maze2D, and Connect Four. It exhibits capabilities in nuanced credit assignments, trajectory stitching, and adaptation to environmental contingencies. These results validate that latent variable inference can be a strong alternative to step-wise reward prompting.
- Abstract(参考訳): 長期的なリターンを目指すタスクにおいては、計画が不可欠である。
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
具体的には、段階的な報酬がない場合の時間的一貫性を重要な技術的課題として挙げる。
本稿では,Transformerベースのトラジェクトリジェネレータと最終リターンを接続するために潜在変数を利用する新しいモデルであるLatent Plan Transformer(LPT)を紹介する。
LPTはトラジェクティブ-リターンペアの最大推定値で学習することができる。
学習において、潜在変数の後方サンプリングは、有限コンテキストにもかかわらず、自然にサブトラジェクトリを統合して一貫した抽象化を形成する。
テスト時には、遅延変数はポリシー実行前の期待した戻り値から推論され、計画のアイデアを推論として実現します。
我々の実験は、LPTが準最適軌跡からの意思決定の改善を発見し、Gym-Mujoco、Franka Kitchen、Maze2D、Connect Fourなど、いくつかのベンチマークで競合性能を達成できることを実証した。
微妙なクレジット割り当て、軌道縫合、環境問題への適応の能力を示す。
これらの結果は、潜伏変数推論がステップワイズ報酬プロンプトの強力な代替となることを証明している。
関連論文リスト
- Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models [48.559185522099625]
自動回帰学習機構を用いてトランスフォーマーに基づく言語モデルにおける計画機能の開発について検討する。
我々の研究は、自己回帰学習の内部メカニズムがネットワークにおける計画をどのように実現しているかについて、新たな光を当てた。
論文 参考訳(メタデータ) (2024-05-15T09:59:37Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Uncertainty-Aware Decision Transformer for Stochastic Driving Environments [34.78461208843929]
環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。
UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。
我々は、意思決定変換器のグローバルなリターンを、実際の結果から学ぶ環境の影響を受けない、切り捨てられたリターンに置き換える。
論文 参考訳(メタデータ) (2023-09-28T12:44:51Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。