論文の概要: Distributional Reinforcement Learning via the Cramér Distance
- arxiv url: http://arxiv.org/abs/2605.08104v1
- Date: Sun, 26 Apr 2026 19:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.698875
- Title: Distributional Reinforcement Learning via the Cramér Distance
- Title(参考訳): Cramér距離を用いた分散強化学習
- Authors: Vanya Aziz, Ivo Nowak, E. M. T Hendrix,
- Abstract要約: 本稿では,分散強化学習環境におけるソフトアクタ・クリティカル(SAC)アルゴリズムの適用について検討する。
クラメールに基づく分散ソフトアクター批判(C-DSAC)と呼ばれるアルゴリズムの実装を導入する。
この新しいアプローチでは、状態-作用値を表すために分布強化学習を採用し、分布を学ぶための正方形クラメール距離を最小化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper explores the application of the Soft Actor-Critic (SAC) algorithm within a Distributional Reinforcement Learning setting and introduces an implementation of such algorithm named Cramér-based Distributional Soft Actor-Critic (C-DSAC). The novel approach employs distributional reinforcement learning to represent state-action values, and minimizes the squared Cramér distance for learning the distribution. Empirical results across various robotic benchmarks indicate that our algorithm surpasses the performance of baseline SAC and contemporary distributional methods, with the performance advantage becoming increasingly pronounced in high-complexity environments. To explain the efficiency of the new approach, we conduct an analysis showing that its superior performance is partly due to \textit{confidence-driven} Q-value updates: High-variance target distributions (low confidence in target) lead to more conservative model updates, thereby attenuating the impact of overestimated values. This work deepens the understanding of distributional reinforcement learning, offering insights into the algorithmic mechanisms governing convergence and value estimation.
- Abstract(参考訳): 本稿では,分散強化学習環境におけるソフト・アクタ・クリティカル (SAC) アルゴリズムの適用について検討し,クラメールをベースとした分散型ソフト・アクタ・クリティカル (C-DSAC) アルゴリズムの実装について紹介する。
この新しいアプローチでは、状態-作用値を表すために分布強化学習を採用し、分布を学ぶための正方形クラメール距離を最小化する。
各種ロボットベンチマークにおける実験結果から,本アルゴリズムはベースラインSACおよび同時代の分散手法の性能を上回り,高複雑さ環境では性能上の優位性がますます顕著になってきていることが示唆された。
提案手法の効率性を説明するため,本手法では,高分散ターゲット分布(ターゲットの信頼性が低い)がより保守的なモデル更新につながり,過大評価値の影響を緩和する。
この研究は分散強化学習の理解を深め、収束と価値推定を管理するアルゴリズムメカニズムに関する洞察を提供する。
関連論文リスト
- Actor-Critic with Active Importance Sampling [61.41272490044518]
本稿では,Active-Importance-Sampling Actor-Critic (AISAC)アルゴリズムを提案する。
AISACはActor-Criticフレームワークの拡張であり、ポリシー勾配推定のばらつきを低減する。
実験では、標準的なアクター・クライブ法と比較して学習速度、サンプル効率、トレーニングが改善された。
論文 参考訳(メタデータ) (2026-05-08T01:21:32Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。