Fugu-MT 論文翻訳(概要): Latent Plan Transformer: Planning as Latent Variable Inference

論文の概要: Latent Plan Transformer: Planning as Latent Variable Inference

arxiv url: http://arxiv.org/abs/2402.04647v1
Date: Wed, 7 Feb 2024 08:18:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 16:15:48.369673
Title: Latent Plan Transformer: Planning as Latent Variable Inference
Title（参考訳）: latent plan transformer: 潜在変数推論としての計画
Authors: Deqian Kong, Dehong Xu, Minglu Zhao, Bo Pang, Jianwen Xie, Andrew Lizarraga, Yuhao Huang, Sirui Xie, Ying Nian Wu
Abstract要約: 本稿では,Transformerベースの軌道生成器と最終帰路を接続する潜在空間を利用した新しいモデルであるLatent Plan Transformerを紹介する。テスト期間中、潜在変数はポリシー実行前の期待した戻り値から推論され、計画のアイデアを推論として実現します。実験により, 最適軌道は, 微妙なクレジット代入, 軌道縫合, 環境問題への適応から, 改善された意思決定を発見できることを示した。
参考スコア（独自算出の注目度）: 55.42812795441545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In tasks aiming for long-term returns, planning becomes necessary. We study generative modeling for planning with datasets repurposed from offline reinforcement learning. Specifically, we identify temporal consistency in the absence of step-wise rewards as one key technical challenge. We introduce the Latent Plan Transformer (LPT), a novel model that leverages a latent space to connect a Transformer-based trajectory generator and the final return. LPT can be learned with maximum likelihood estimation on trajectory-return pairs. In learning, posterior sampling of the latent variable naturally gathers sub-trajectories to form a consistent abstraction despite the finite context. During test time, the latent variable is inferred from an expected return before policy execution, realizing the idea of planning as inference. It then guides the autoregressive policy throughout the episode, functioning as a plan. Our experiments demonstrate that LPT can discover improved decisions from suboptimal trajectories. It achieves competitive performance across several benchmarks, including Gym-Mujoco, Maze2D, and Connect Four, exhibiting capabilities of nuanced credit assignments, trajectory stitching, and adaptation to environmental contingencies. These results validate that latent variable inference can be a strong alternative to step-wise reward prompting.
Abstract（参考訳）: 長期的なリターンを目指すタスクでは、計画が必要である。オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。具体的には、段階的な報酬がない場合の時間的一貫性を重要な技術的課題として挙げる。本稿では,Transformerベースのトラジェクトリジェネレータと最終リターンを接続するために,遅延空間を利用する新しいモデルであるLatent Plan Transformer(LPT)を紹介する。 LPTはトラジェクティブ-リターンペアの最大推定値で学習することができる。学習において、潜在変数の後方サンプリングは自然に部分軌跡を集め、有限文脈にもかかわらず一貫した抽象を形成する。テスト時間中、潜在変数はポリシー実行前の期待リターンから推測され、推論として計画するという考えが実現される。その後、エピソード全体の自己回帰政策をガイドし、計画として機能する。実験の結果,LPTは最適軌道から改善された決定を発見できることがわかった。 Gym-Mujoco、Maze2D、Connect Fourなどいくつかのベンチマークで競合性能を達成し、微妙なクレジット割り当て、軌道縫合、環境問題への適応能力を示している。これらの結果は、潜在変数推論がステップ毎の報酬プロンプトの強力な代替となることを検証している。

関連論文リスト

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning [15.103861901247125]
スパース環境のためのロバスト推論モデルを開発するための3段階フレームワークを提案する。本フレームワークは,長短連鎖融合を用いた計画四元数を用いた効率的な推論をブートストラップする。 ALFWorld、ScienceWorld、WebShopの実験は、我々のアプローチがトークンの効率を著しく向上することを示す。
論文参考訳（メタデータ） (2025-08-05T02:56:58Z)
Diffusion Meets Options: Hierarchical Generative Skill Composition for Temporally-Extended Tasks [12.239868705130178]
線形時間論理(LTL)によって規定された命令に基づいて計画の生成と更新を行うデータ駆動階層型フレームワークを提案する。提案手法は,オフラインの非専門家データセットから階層的強化学習を用いて,時間的タスクを選択肢の連鎖に分解する。バッチ生成における行列誘導後サンプリング手法を考案し,拡散生成オプションの速度と多様性を向上する。
論文参考訳（メタデータ） (2024-10-03T11:10:37Z)
Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文参考訳（メタデータ） (2024-08-02T18:07:53Z)
Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。 QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T12:12:39Z)
Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文参考訳（メタデータ） (2023-11-02T16:45:25Z)
Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文参考訳（メタデータ） (2023-09-29T16:36:39Z)
Uncertainty-Aware Decision Transformer for Stochastic Driving Environments [34.78461208843929]
環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。 UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。我々は、意思決定変換器のグローバルなリターンを、実際の結果から学ぶ環境の影響を受けない、切り捨てられたリターンに置き換える。
論文参考訳（メタデータ） (2023-09-28T12:44:51Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。