論文の概要: Planning with Sequence Models through Iterative Energy Minimization
- arxiv url: http://arxiv.org/abs/2303.16189v1
- Date: Tue, 28 Mar 2023 17:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:05:20.590084
- Title: Planning with Sequence Models through Iterative Energy Minimization
- Title(参考訳): 反復エネルギー最小化によるシーケンスモデルによる計画
- Authors: Hongyi Chen, Yilun Du, Yiye Chen, Joshua Tenenbaum, Patricio A. Vela
- Abstract要約: 本稿では,反復的エネルギー最小化の考え方に基づいて,計画とシーケンスモデルを統合するためのアプローチを提案する。
マスク付き言語モデルを用いて、行動軌跡上の暗黙のエネルギー関数を捕捉し、最小エネルギーの行動軌跡を見つけるための計画を立てる。
本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。
- 参考スコア(独自算出の注目度): 22.594413287842574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that sequence modeling can be effectively used to
train reinforcement learning (RL) policies. However, the success of applying
existing sequence models to planning, in which we wish to obtain a trajectory
of actions to reach some goal, is less straightforward. The typical
autoregressive generation procedures of sequence models preclude sequential
refinement of earlier steps, which limits the effectiveness of a predicted
plan. In this paper, we suggest an approach towards integrating planning with
sequence models based on the idea of iterative energy minimization, and
illustrate how such a procedure leads to improved RL performance across
different tasks. We train a masked language model to capture an implicit energy
function over trajectories of actions, and formulate planning as finding a
trajectory of actions with minimum energy. We illustrate how this procedure
enables improved performance over recent approaches across BabyAI and Atari
environments. We further demonstrate unique benefits of our iterative
optimization procedure, involving new task generalization, test-time
constraints adaptation, and the ability to compose plans together. Project
website: https://hychen-naza.github.io/projects/LEAP
- Abstract(参考訳): 近年の研究では、シーケンスモデリングが強化学習(RL)ポリシーの訓練に有効であることが示されている。
しかし、計画に既存のシーケンスモデルを適用することに成功し、ある目標を達成するための行動の軌跡を得たいと考えることは、それほど簡単ではない。
シーケンスモデルの典型的な自己回帰的生成手順は、予測計画の有効性を制限する早期段階の逐次的な洗練を妨げる。
本稿では,反復的エネルギー最小化の考え方に基づくシーケンスモデルと計画を統合する手法を提案し,その手法が異なるタスク間でのrl性能向上にどのようにつながるかを説明する。
マスキング言語モデルを訓練し,行動の軌跡上の暗黙のエネルギー関数をキャプチャし,最小エネルギーによる行動の軌跡を探索する計画を定式化する。
本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。
我々はさらに,新しいタスクの一般化,テスト時の制約適応,計画の構成能力などを含む反復的最適化手法のユニークな利点を実証する。
プロジェクトウェブサイト: https://hychen-naza.github.io/projects/leap
関連論文リスト
- Locally Optimal Descent for Dynamic Stepsize Scheduling [45.6809308002043]
本稿では,段階的スケジュールのマニュアルと時間的チューニングを簡略化することを目的とした,理論に基づく新しい動的学習スケジューリング手法を提案する。
本手法は,スムーズな勾配方向の局所最適練習速度を推定することに基づく。
提案手法は,既存手法と比較して最小限のチューニングが必要であることが示唆された。
論文 参考訳(メタデータ) (2023-11-23T09:57:35Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Position Paper: Online Modeling for Offline Planning [2.8326418377665346]
AI計画研究の重要な部分はアクションモデルの表現である。
この分野の成熟にもかかわらず、AI計画技術は研究コミュニティの外ではめったに使われない。
これは、モデリングプロセスが計画プロセスの前に行われ、完了したと仮定されているためである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-07T14:48:08Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Planning from Pixels using Inverse Dynamics Models [44.16528631970381]
本稿では,タスク完了にともなう未来の行動の順序を学習することで,潜在世界モデルを学ぶ新しい方法を提案する。
本研究では,視覚目標達成タスクの課題に対する提案手法の評価を行い,従来のモデルフリー手法と比較して性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-12-04T06:07:36Z) - Model-Predictive Control via Cross-Entropy and Gradient-Based
Optimization [26.497575737219794]
クロスエントロピー法(クロスエントロピーほう、CEM)は、集団に基づく一連の行動計画の最適化手法である。
そこで本研究では,CEMと勾配降下ステップをインターリーブして動作シーケンスを最適化することで,この問題を解決する手法を提案する。
本実験は, 高次元の作用空間においても, 提案したハイブリッドアプローチのより高速な収束性を示す。
論文 参考訳(メタデータ) (2020-04-19T03:54:50Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。