論文の概要: Offline Reinforcement Learning with Penalized Action Noise Injection
- arxiv url: http://arxiv.org/abs/2507.02356v1
- Date: Thu, 03 Jul 2025 06:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.774464
- Title: Offline Reinforcement Learning with Penalized Action Noise Injection
- Title(参考訳): ペナルティック・アクション・ノイズ・インジェクションを用いたオフライン強化学習
- Authors: JunHyeok Oh, Byung-Jun Lee,
- Abstract要約: 本稿では,ノイズ注入行動を利用したオフライン学習の簡易化手法であるPinalized Action Noise Injection (PANI)を提案する。
PANIは,既存のオフラインおよびオフラインのRLアルゴリズムと互換性があることを示し,その単純さにもかかわらず,様々なベンチマークにおいて大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 5.844892266835562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) optimizes a policy using only a fixed dataset, making it a practical approach in scenarios where interaction with the environment is costly. Due to this limitation, generalization ability is key to improving the performance of offline RL algorithms, as demonstrated by recent successes of offline RL with diffusion models. However, it remains questionable whether such diffusion models are necessary for highly performing offline RL algorithms, given their significant computational requirements during inference. In this paper, we propose Penalized Action Noise Injection (PANI), a method that simply enhances offline learning by utilizing noise-injected actions to cover the entire action space, while penalizing according to the amount of noise injected. This approach is inspired by how diffusion models have worked in offline RL algorithms. We provide a theoretical foundation for this method, showing that offline RL algorithms with such noise-injected actions solve a modified Markov Decision Process (MDP), which we call the noisy action MDP. PANI is compatible with a wide range of existing off-policy and offline RL algorithms, and despite its simplicity, it demonstrates significant performance improvements across various benchmarks.
- Abstract(参考訳): オフライン強化学習(RL)は、固定データセットのみを使用してポリシーを最適化する。
この制限により、一般化能力は、拡散モデルを用いたオフラインRLの最近の成功によって示されているように、オフラインRLアルゴリズムの性能向上の鍵となる。
しかし、そのような拡散モデルが高能率オフラインRLアルゴリズムに必要かどうかについては、推論中に重要な計算要求があるため、疑問が残る。
本稿では, ノイズ注入の量に応じてペナル化を行いながら, 動作空間全体をカバーするために, ノイズ注入された動作を利用することで, オフライン学習を簡易に向上する手法であるPinalized Action Noise Injection (PANI)を提案する。
このアプローチは、オフラインのRLアルゴリズムで拡散モデルがどのように機能したかにインスパイアされている。
本手法の理論的基礎は,ノイズ注入動作を持つオフラインRLアルゴリズムが,ノイズ発生動作 MDP と呼ばれる改良されたマルコフ決定過程(MDP)を解くことを示すものである。
PANIは、多くの既存のオフラインRLアルゴリズムと互換性があり、その単純さにもかかわらず、様々なベンチマークで大幅なパフォーマンス向上を示している。
関連論文リスト
- Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - A Clean Slate for Offline Reinforcement Learning [30.87055102715522]
オフライン強化学習(RL)は曖昧な問題定義と絡み合ったアルゴリズム設計によって妨げられている。
我々は、厳格な分類法と、オンラインチューニング予算を明確に定量化する透明な評価プロトコルを導入する。
我々は,TD3-AWR(モデルフリー)とMoBRAC(モデルベース)という,確立されたベースラインを大幅に上回る2つの新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-04-15T17:59:05Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。