論文の概要: D2C-HRHR: Discrete Actions with Double Distributional Critics for High-Risk-High-Return Tasks
- arxiv url: http://arxiv.org/abs/2510.17212v1
- Date: Mon, 20 Oct 2025 06:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.339873
- Title: D2C-HRHR: Discrete Actions with Double Distributional Critics for High-Risk-High-Return Tasks
- Title(参考訳): D2C-HRHR:ハイリスク・ハイリターンタスクのための二重分布批判を伴う離散行動
- Authors: Jundong Zhang, Yuhui Situ, Fanji Zhang, Rongji Deng, Tianqi Wei,
- Abstract要約: 高リスクハイリターン動作を含むタスクは、しばしばマルチモーダルなアクション分布とリターンを示す。
ほとんどの強化学習法は、一元的なガウス主義を前提としており、スカラー評価の批判に頼っている。
本稿では,連続的な行動空間を近似したマルチモーダル分布に識別する強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.3425341633647625
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tasks involving high-risk-high-return (HRHR) actions, such as obstacle crossing, often exhibit multimodal action distributions and stochastic returns. Most reinforcement learning (RL) methods assume unimodal Gaussian policies and rely on scalar-valued critics, which limits their effectiveness in HRHR settings. We formally define HRHR tasks and theoretically show that Gaussian policies cannot guarantee convergence to the optimal solution. To address this, we propose a reinforcement learning framework that (i) discretizes continuous action spaces to approximate multimodal distributions, (ii) employs entropy-regularized exploration to improve coverage of risky but rewarding actions, and (iii) introduces a dual-critic architecture for more accurate discrete value distribution estimation. The framework scales to high-dimensional action spaces, supporting complex control domains. Experiments on locomotion and manipulation benchmarks with high risks of failure demonstrate that our method outperforms baselines, underscoring the importance of explicitly modeling multimodality and risk in RL.
- Abstract(参考訳): 障害物交差のような高リスクハイリターン(HRHR)アクションを含むタスクは、多モーダルなアクション分布と確率的リターンを示すことが多い。
ほとんどの強化学習(RL)手法は、一元的なガウス政策を前提としており、HRHR設定におけるその効果を制限するスカラー評価の批判に依存している。
我々はHRHRタスクを正式に定義し、ガウス政策が最適解への収束を保証できないことを理論的に示す。
これを解決するために,我々は強化学習フレームワークを提案する。
i)マルチモーダル分布を近似するために連続的な作用空間を離散化する。
(二)エントロピー規則化された探究を用いて、危険だが報奨行為のカバレッジを向上させること。
(iii)より正確な離散値分布推定のための二重批判的アーキテクチャを導入する。
このフレームワークは高次元のアクション空間にスケールし、複雑な制御領域をサポートする。
故障リスクの高い移動および操作ベンチマークの実験では,本手法がベースラインよりも優れており,マルチモーダリティとRLのリスクを明示的にモデル化することの重要性が強調されている。
関連論文リスト
- Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。
分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。
より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-03T20:25:41Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Extreme Risk Mitigation in Reinforcement Learning using Extreme Value
Theory [10.288413564829579]
リスク認識の重要な側面は、破滅的な結果をもたらす可能性のある非常に稀なリスクイベント(リワード)をモデル化することである。
リスクを意識したRL手法は存在するが、リスク回避のレベルは状態-作用値関数の推定の精度に大きく依存している。
本研究では、状態-作用値関数分布によって予測される極端な値の予測を精査することに着目し、非常に稀で危険な事象に直面した場合のRLエージェントのレジリエンスを高めることを提案する。
論文 参考訳(メタデータ) (2023-08-24T18:23:59Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。