論文の概要: Optimizing Latent Goal by Learning from Trajectory Preference
- arxiv url: http://arxiv.org/abs/2412.02125v1
- Date: Tue, 03 Dec 2024 03:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:48:51.133992
- Title: Optimizing Latent Goal by Learning from Trajectory Preference
- Title(参考訳): 軌跡選好からの学習による潜在目標の最適化
- Authors: Guangyu Zhao, Kewei Lian, Haowei Lin, Haobo Fu, Qiang Fu, Shaofei Cai, Zihao Wang, Yitao Liang,
- Abstract要約: 優先度目標調整(PGT)というフレームワークを提案する。
PGTは、環境と対話して複数の軌道を収集する、以下のポリシーの指示を可能にする。
選好学習を用いて、初期目標の潜在表現を分類された軌道で微調整する。
- 参考スコア(独自算出の注目度): 18.262362315783268
- License:
- Abstract: A glowing body of work has emerged focusing on instruction-following policies for open-world agents, aiming to better align the agent's behavior with human intentions. However, the performance of these policies is highly susceptible to the initial prompt, which leads to extra efforts in selecting the best instructions. We propose a framework named Preference Goal Tuning (PGT). PGT allows an instruction following policy to interact with the environment to collect several trajectories, which will be categorized into positive and negative samples based on preference. Then we use preference learning to fine-tune the initial goal latent representation with the categorized trajectories while keeping the policy backbone frozen. The experiment result shows that with minimal data and training, PGT achieves an average relative improvement of 72.0% and 81.6% over 17 tasks in 2 different foundation policies respectively, and outperforms the best human-selected instructions. Moreover, PGT surpasses full fine-tuning in the out-of-distribution (OOD) task-execution environments by 13.4%, indicating that our approach retains strong generalization capabilities. Since our approach stores a single latent representation for each task independently, it can be viewed as an efficient method for continual learning, without the risk of catastrophic forgetting or task interference. In short, PGT enhances the performance of agents across nearly all tasks in the Minecraft Skillforge benchmark and demonstrates robustness to the execution environment.
- Abstract(参考訳): オープンワールドエージェントの指示追従ポリシーに焦点が当てられ、エージェントの行動と人間の意図をより良く整合させることを目的としている。
しかしながら、これらのポリシーのパフォーマンスは、最初のプロンプトに非常に影響を受けやすいため、最高の指示を選択するための余分な努力がもたらされる。
提案するフレームワークは Preference Goal Tuning (PGT) である。
PGTは、環境と相互作用する指示に従うことで、いくつかの軌道を収集し、好みに基づいて正のサンプルと負のサンプルに分類する。
次に、嗜好学習を用いて、ポリシーのバックボーンを凍結させながら、分類された軌道で初期目標潜在表現を微調整する。
実験の結果、PGTはデータとトレーニングを最小にすることで、17のタスクに対して平均72.0%と81.6%の相対的な改善を達成し、2つの異なる基本方針でそれぞれ達成し、最高の人間選択命令を上回ります。
さらに, PGTは, タスク実行環境(OOD)の完全微調整を13.4%超え, 高い一般化能力を維持していることを示す。
提案手法は,タスク毎にひとつの潜伏表現を独立に格納するので,破滅的忘れ込みやタスク干渉のリスクを伴わずに,継続的な学習の効率的な方法とみなすことができる。
簡単に言うと、PGTはMinecraft Skillforgeベンチマークのほぼすべてのタスクにおけるエージェントのパフォーマンスを高め、実行環境に対する堅牢性を示す。
関連論文リスト
- FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Optimistic Multi-Agent Policy Gradient [23.781837938235036]
相対的過一般化 (Relative Over generalization, RO) は、エージェントが準最適結合ポリシーに向かって収束する際に起こる。
マルチエージェントポリシー勾配(MAPG)法では,ROに対処する手法は提案されていない。
本稿では,RO問題を緩和するMAPG手法の楽観的な更新を可能にする,汎用的でシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:47:54Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - Off-Policy Deep Reinforcement Learning with Analogous Disentangled
Exploration [33.25932244741268]
オフ政治強化学習(英: Off-policy reinforcement learning、RL)は、経験のサンプルを収集する別の政策を実行することで報酬政策を学ぶことに関心がある。
前者の方針は報われているが、(ほとんどの場合、決定論的な)非表現的であり、後者の課題では、対照的に、ガイド付きかつ効果的な探索を提供する表現的政策が必要である。
本稿では,この問題を緩和するために,Analogous Disentangled Actor-Critic (ADAC)を提案する。
論文 参考訳(メタデータ) (2020-02-25T08:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。