論文の概要: Optimism as Risk-Seeking in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.24047v1
- Date: Sun, 28 Sep 2025 19:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.607491
- Title: Optimism as Risk-Seeking in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるリスク探索としての最適化
- Authors: Runyu Zhang, Na Li, Asuman Ozdaglar, Jeff Shamma, Gioele Zardini,
- Abstract要約: リスク探索の目的を楽観主義として解釈する原則的枠組みを提案する。
我々は、エントロピーリスク/KL-ペナルティ設定の明示的な公式を含む楽観的値関数に対するポリシー勾配定理を導出する。
この枠組みはリスクに敏感な学習と楽観主義を統一し,MARLにおける協調に対する理論的根拠と実践的効果的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 3.2693858240177565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk sensitivity has become a central theme in reinforcement learning (RL), where convex risk measures and robust formulations provide principled ways to model preferences beyond expected return. Recent extensions to multi-agent RL (MARL) have largely emphasized the risk-averse setting, prioritizing robustness to uncertainty. In cooperative MARL, however, such conservatism often leads to suboptimal equilibria, and a parallel line of work has shown that optimism can promote cooperation. Existing optimistic methods, though effective in practice, are typically heuristic and lack theoretical grounding. Building on the dual representation for convex risk measures, we propose a principled framework that interprets risk-seeking objectives as optimism. We introduce optimistic value functions, which formalize optimism as divergence-penalized risk-seeking evaluations. Building on this foundation, we derive a policy-gradient theorem for optimistic value functions, including explicit formulas for the entropic risk/KL-penalty setting, and develop decentralized optimistic actor-critic algorithms that implement these updates. Empirical results on cooperative benchmarks demonstrate that risk-seeking optimism consistently improves coordination over both risk-neutral baselines and heuristic optimistic methods. Our framework thus unifies risk-sensitive learning and optimism, offering a theoretically grounded and practically effective approach to cooperation in MARL.
- Abstract(参考訳): リスク感度は強化学習(RL)において中心的なテーマとなり、凸リスク対策と頑健な定式化によって、期待されるリターンを超えて好みをモデル化する原則的な方法が提供されている。
MARL(Multi-agent RL)への最近の拡張は、リスクと逆の設定を強調し、不確実性へのロバスト性を優先している。
しかし、協調的なMARLでは、そのような保守主義がしばしば最適以下の均衡をもたらすことがあり、並行的な研究のラインは、楽観主義が協調を促進することを示している。
既存の楽観的手法は実際は有効であるが、概してヒューリスティックであり、理論的な根拠がない。
コンベックスリスク対策の二重表現に基づいて,リスク探索の目的を楽観主義と解釈する原則的枠組みを提案する。
我々は楽観的な値関数を導入し、楽観主義を分散報酬化リスク探索評価として定式化する。
この基礎の上に、エントロピーリスク/KL-ペナルティ設定の明示的な公式を含む楽観的値関数に対するポリシー段階的な定理を導出し、これらの更新を実装する分散型楽観的アクター-批判アルゴリズムを開発する。
協調ベンチマークの実証的な結果は、リスク探索の楽観主義が、リスクニュートラルベースラインとヒューリスティック楽観的手法の両方のコーディネーションを一貫して改善することを示している。
この枠組みはリスクに敏感な学習と楽観主義を統一し,MARLにおける協調に対する理論的根拠と実践的効果的なアプローチを提供する。
関連論文リスト
- Risk-Averse Best Arm Set Identification with Fixed Budget and Fixed Confidence [0.562479170374811]
本稿では,期待報酬の最大化と関連する不確実性の最小化に対処するバンディット最適化における新たな問題設定を提案する。
固定信頼と固定最適体制の両方の下で動作可能な統一的メタ予算ゴリトミックフレームワークを提案する。
提案手法は,精度と試料効率の両面で既存手法より優れている。
論文 参考訳(メタデータ) (2025-06-27T14:21:03Z) - Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。
楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。
我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Risk-Aware Reinforcement Learning through Optimal Transport Theory [4.8951183832371]
本稿では、リスク対応フレームワークを構築するために、最適輸送理論と強化学習(RL)の統合を開拓する。
提案手法は目的関数を修正し,得られたポリシが期待される報酬を最大化するだけでなく,OT距離によって規定されるリスク制約も尊重する。
我々の貢献は、リスク分布、最適値関数、政策行動の間の関係をマッピングする一連の定理で裏付けられている。
論文 参考訳(メタデータ) (2023-09-12T13:55:01Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Uniform Pessimistic Risk and its Optimal Portfolio [0.6445605125467574]
本稿では,そのリスクに基づいて最適なポートフォリオを得るために,テキストテクスチュニフォーム悲観的リスクと計算アルゴリズムという,$alpha$-riskの積分を提案する。
3つのストックデータセット(S&P500、CSI500、KOSPI200)の実データ分析は、提案されたリスクとポートフォリオモデルの有用性を示している。
論文 参考訳(メタデータ) (2023-03-02T09:41:15Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。