論文の概要: Exploration and Adaptation in Non-Stationary Tasks with Diffusion Policies
- arxiv url: http://arxiv.org/abs/2504.00280v1
- Date: Mon, 31 Mar 2025 23:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:30.006634
- Title: Exploration and Adaptation in Non-Stationary Tasks with Diffusion Policies
- Title(参考訳): 拡散政策を考慮した非定常課題の探索と適応
- Authors: Gunbir Singh Baveja,
- Abstract要約: 本稿では,非定常視覚に基づくRL設定における拡散政策の適用について検討する。
我々はDiffusion Policy(拡散ポリシー)を適用し、ProcgenやPointMazeといったベンチマーク環境に反復的な denoising を利用して遅延アクション表現を洗練します。
計算要求が増大しているにもかかわらず,拡散ポリシはPPOやDQNなどの標準RL法を常に上回り,変動性を低減した平均値と最大値の報奨が得られることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper investigates the application of Diffusion Policy in non-stationary, vision-based RL settings, specifically targeting environments where task dynamics and objectives evolve over time. Our work is grounded in practical challenges encountered in dynamic real-world scenarios such as robotics assembly lines and autonomous navigation, where agents must adapt control strategies from high-dimensional visual inputs. We apply Diffusion Policy -- which leverages iterative stochastic denoising to refine latent action representations-to benchmark environments including Procgen and PointMaze. Our experiments demonstrate that, despite increased computational demands, Diffusion Policy consistently outperforms standard RL methods such as PPO and DQN, achieving higher mean and maximum rewards with reduced variability. These findings underscore the approach's capability to generate coherent, contextually relevant action sequences in continuously shifting conditions, while also highlighting areas for further improvement in handling extreme non-stationarity.
- Abstract(参考訳): 本稿では,非定常視覚に基づくRL設定における拡散政策の適用について検討する。
我々の研究は、ロボット組立ラインや自律ナビゲーションのような動的現実のシナリオで遭遇する実践的な課題に基づいており、エージェントは高次元の視覚入力から制御戦略を適用する必要がある。
本稿では, Procgen や PointMaze などのベンチマーク環境に対して,反復的確率的デノゲーションを利用して潜在動作表現を洗練させる拡散ポリシーを適用した。
計算要求が増大しているにもかかわらず,拡散ポリシはPPOやDQNなどの標準RL法を常に上回り,変動性を低減した平均値と最大値の報奨が得られることを示した。
これらの知見は、連続的なシフト条件下でコヒーレントで文脈的に関連するアクションシーケンスを生成するためのアプローチの能力と、極端な非定常性を扱うためのさらなる改善の領域を強調している。
関連論文リスト
- Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。
OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。
本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T14:28:18Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。