論文の概要: Variational Delayed Policy Optimization
- arxiv url: http://arxiv.org/abs/2405.14226v2
- Date: Mon, 21 Oct 2024 20:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:01.829626
- Title: Variational Delayed Policy Optimization
- Title(参考訳): 変分遅延政策最適化
- Authors: Qingyuan Wu, Simon Sinong Zhan, Yixuan Wang, Yuhui Wang, Chung-Wei Lin, Chen Lv, Qi Zhu, Chao Huang,
- Abstract要約: 遅延観測環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。
時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。
本稿では、遅延RLを変分推論問題として再構成する、変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 25.668512485348952
- License:
- Abstract: In environments with delayed observation, state augmentation by including actions within the delay window is adopted to retrieve Markovian property to enable reinforcement learning (RL). However, state-of-the-art (SOTA) RL techniques with Temporal-Difference (TD) learning frameworks often suffer from learning inefficiency, due to the significant expansion of the augmented state space with the delay. To improve learning efficiency without sacrificing performance, this work introduces a novel framework called Variational Delayed Policy Optimization (VDPO), which reformulates delayed RL as a variational inference problem. This problem is further modelled as a two-step iterative optimization problem, where the first step is TD learning in the delay-free environment with a small state space, and the second step is behaviour cloning which can be addressed much more efficiently than TD learning. We not only provide a theoretical analysis of VDPO in terms of sample complexity and performance, but also empirically demonstrate that VDPO can achieve consistent performance with SOTA methods, with a significant enhancement of sample efficiency (approximately 50\% less amount of samples) in the MuJoCo benchmark.
- Abstract(参考訳): 遅延観察環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。
しかし、時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。
性能を犠牲にすることなく学習効率を向上させるために,遅延RLを変分推論問題として再構成する変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを導入する。
この問題はさらに2段階反復最適化問題としてモデル化され、第1段階は遅延のない環境でのTD学習であり、第2段階はTD学習よりも効率的に対処できる行動クローニングである。
また, VDPOがSOTA法と一貫した性能を実現可能であることを実証的に示すとともに, MuJoCo ベンチマークにおける試料効率の大幅な向上(試料量の約 50 % 削減)を図った。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach [3.6509749032112753]
目標指向スケジューリング問題に対する最適解の構造的特性を導出し,情報化時代(AoI)とチャネル状態を統合する。
そこで本研究では,オンライントレーニングの安定性と非政治手法のサンプル効率を併用したハイブリッドアルゴリズムである,構造誘導型統合二重オンオフポリシーDRL(SUDO-DRL)を提案する。
数値計算の結果,SUDO-DRLはシステム性能を最大45%改善し,コンバージェンス時間を40%削減した。
論文 参考訳(メタデータ) (2025-01-21T06:49:06Z) - SPEQ: Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
最近のオフポリシーアルゴリズムは、更新からデータへの比率を高め、環境相互作用ごとにより勾配の更新を行うことで、サンプル効率を向上させる。
これにより、サンプル効率が向上するが、必要な勾配更新の数が増えるため、計算コストが大幅に向上する。
本稿では,学習を異なる学習段階に分割することで,計算効率を向上させるためのサンプル効率向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - PID Accelerated Temporal Difference Algorithms [7.634360142922117]
価値反復(Value Iteration)や時間差分(TD)学習(TD)学習(TD)のようなアルゴリズムは、収束速度が遅く、これらのタスクでは非効率になる。
PID VIは、制御理論のアイデアを用いた価値反復の収束を加速するために最近導入された。
我々は,従来のTD学習と比較して,PID TD学習の収束とその加速に関する理論的解析を行う。
論文 参考訳(メタデータ) (2024-07-11T18:23:46Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays [41.52768902667611]
強化学習(Reinforcement Learning, RL)は、事象と知覚知覚の間の遅延の一般的な場合において困難である。
本稿では、短時間の遅延を含む補助的なタスクを活用して、長時間の遅延でRLを高速化する、Auxiliary-Delayed Reinforcement Learning (AD-RL) 法を提案する。
具体的には、AD-RLは短い遅延に対する値関数を学習し、ブートストラップとポリシー改善技術を用いて長い遅延に調整する。
論文 参考訳(メタデータ) (2024-02-05T16:11:03Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。