論文の概要: D2 Actor Critic: Diffusion Actor Meets Distributional Critic
- arxiv url: http://arxiv.org/abs/2510.03508v1
- Date: Fri, 03 Oct 2025 20:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.081081
- Title: D2 Actor Critic: Diffusion Actor Meets Distributional Critic
- Title(参考訳): D2アクター批判:拡散アクターが分散批判に遭遇
- Authors: Lunjun Zhang, Shuo Han, Hanrui Lyu, Bradly C Stadie,
- Abstract要約: D2ACは,オンライン上で表現的拡散政策を効果的に訓練するために設計された新しいモデルフリー強化学習(RL)アルゴリズムである。
その中核は政策改善の目標であり、典型的な政策勾配の高分散と時間経過によるバックプロパゲーションの複雑さを避ける。
この安定した学習プロセスは、我々の第2の貢献によって、ロバストな分布的批判によって可能となり、分布的RLとクリップされた二重Q-ラーニングを融合して設計する。
得られたアルゴリズムは非常に効果的で、ヒューマノイド、ドッグ、シャドウハンドを含む18のハードRLタスクのベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.669386607943427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce D2AC, a new model-free reinforcement learning (RL) algorithm designed to train expressive diffusion policies online effectively. At its core is a policy improvement objective that avoids the high variance of typical policy gradients and the complexity of backpropagation through time. This stable learning process is critically enabled by our second contribution: a robust distributional critic, which we design through a fusion of distributional RL and clipped double Q-learning. The resulting algorithm is highly effective, achieving state-of-the-art performance on a benchmark of eighteen hard RL tasks, including Humanoid, Dog, and Shadow Hand domains, spanning both dense-reward and goal-conditioned RL scenarios. Beyond standard benchmarks, we also evaluate a biologically motivated predator-prey task to examine the behavioral robustness and generalization capacity of our approach.
- Abstract(参考訳): D2ACは,オンライン上で表現的拡散政策を効果的に訓練するために設計された新しいモデルフリー強化学習(RL)アルゴリズムである。
その中核は政策改善の目標であり、典型的な政策勾配の高分散と時間経過によるバックプロパゲーションの複雑さを避ける。
この安定した学習プロセスは、我々の第2の貢献によって、ロバストな分布的批判によって可能となり、分布的RLとクリップされた二重Q-ラーニングを融合して設計する。
得られたアルゴリズムは非常に効果的で、Humanoid、Dog、Shadow Handを含む18のハードRLタスクのベンチマークで最先端のパフォーマンスを達成する。
標準ベンチマーク以外にも,生物学的に動機づけられた捕食者・捕食者の課題を評価し,我々のアプローチの行動堅牢性と一般化能力について検討する。
関連論文リスト
- Efficient Online Reinforcement Learning for Diffusion Policy [38.39095131927252]
損失関数を再重み付けすることで従来のデノナイジングスコアマッチングを一般化する。
結果のReweighted Score Matching (RSM) は最適解と低い計算コストを保存する。
DPMD(Diffusion Policy Mirror Descent)とSDAC(Soft Diffusion Actor-Critic)という2つの実用的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-01T07:55:06Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Adversarially Trained Actor Critic for Offline Reinforcement Learning [42.42451519801851]
ATACは、データカバレッジが不十分な状態でオフラインで強化学習を行うための新しいモデルなしアルゴリズムである。
D4RLベンチマークでは、ATACは一連の連続制御タスクにおいて、最先端のオフラインRLアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-02-05T01:02:46Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。