Fugu-MT 論文翻訳(概要): Planning with Sequence Models through Iterative Energy Minimization

論文の概要: Planning with Sequence Models through Iterative Energy Minimization

arxiv url: http://arxiv.org/abs/2303.16189v1
Date: Tue, 28 Mar 2023 17:53:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-29 14:05:20.590084
Title: Planning with Sequence Models through Iterative Energy Minimization
Title（参考訳）: 反復エネルギー最小化によるシーケンスモデルによる計画
Authors: Hongyi Chen, Yilun Du, Yiye Chen, Joshua Tenenbaum, Patricio A. Vela
Abstract要約: 本稿では,反復的エネルギー最小化の考え方に基づいて,計画とシーケンスモデルを統合するためのアプローチを提案する。マスク付き言語モデルを用いて、行動軌跡上の暗黙のエネルギー関数を捕捉し、最小エネルギーの行動軌跡を見つけるための計画を立てる。本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。
参考スコア（独自算出の注目度）: 22.594413287842574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent works have shown that sequence modeling can be effectively used to train reinforcement learning (RL) policies. However, the success of applying existing sequence models to planning, in which we wish to obtain a trajectory of actions to reach some goal, is less straightforward. The typical autoregressive generation procedures of sequence models preclude sequential refinement of earlier steps, which limits the effectiveness of a predicted plan. In this paper, we suggest an approach towards integrating planning with sequence models based on the idea of iterative energy minimization, and illustrate how such a procedure leads to improved RL performance across different tasks. We train a masked language model to capture an implicit energy function over trajectories of actions, and formulate planning as finding a trajectory of actions with minimum energy. We illustrate how this procedure enables improved performance over recent approaches across BabyAI and Atari environments. We further demonstrate unique benefits of our iterative optimization procedure, involving new task generalization, test-time constraints adaptation, and the ability to compose plans together. Project website: https://hychen-naza.github.io/projects/LEAP
Abstract（参考訳）: 近年の研究では、シーケンスモデリングが強化学習(RL)ポリシーの訓練に有効であることが示されている。しかし、計画に既存のシーケンスモデルを適用することに成功し、ある目標を達成するための行動の軌跡を得たいと考えることは、それほど簡単ではない。シーケンスモデルの典型的な自己回帰的生成手順は、予測計画の有効性を制限する早期段階の逐次的な洗練を妨げる。本稿では,反復的エネルギー最小化の考え方に基づくシーケンスモデルと計画を統合する手法を提案し,その手法が異なるタスク間でのrl性能向上にどのようにつながるかを説明する。マスキング言語モデルを訓練し,行動の軌跡上の暗黙のエネルギー関数をキャプチャし,最小エネルギーによる行動の軌跡を探索する計画を定式化する。本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。我々はさらに,新しいタスクの一般化,テスト時の制約適応,計画の構成能力などを含む反復的最適化手法のユニークな利点を実証する。プロジェクトウェブサイト: https://hychen-naza.github.io/projects/leap

関連論文リスト

Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-28T14:14:19Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling [23.62433580021779]
我々は、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。効率的なクローズドループ計画のためのネスト型平衡系列モデリング手法を考案した。提案手法はVirtualHome-Envベンチマークで評価され,性能が向上し,推論精度が向上した。
論文参考訳（メタデータ） (2024-10-02T11:42:49Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文参考訳（メタデータ） (2024-08-02T18:07:53Z)
Model-based Reinforcement Learning for Parameterized Action Spaces [11.94388805327713]
PAMDPのためのモデルベース強化学習アルゴリズムを提案する。エージェントはパラメータ化されたアクション条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と性能を実現することが示された。
論文参考訳（メタデータ） (2024-04-03T19:48:13Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)
Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文参考訳（メタデータ） (2023-07-24T16:52:31Z)
Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文参考訳（メタデータ） (2023-03-20T14:51:10Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文参考訳（メタデータ） (2021-06-24T17:59:18Z)
Model-Predictive Control via Cross-Entropy and Gradient-Based Optimization [26.497575737219794]
クロスエントロピー法(クロスエントロピーほう、CEM)は、集団に基づく一連の行動計画の最適化手法である。そこで本研究では,CEMと勾配降下ステップをインターリーブして動作シーケンスを最適化することで,この問題を解決する手法を提案する。本実験は, 高次元の作用空間においても, 提案したハイブリッドアプローチのより高速な収束性を示す。
論文参考訳（メタデータ） (2020-04-19T03:54:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。