論文の概要: Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification
- arxiv url: http://arxiv.org/abs/2204.09833v1
- Date: Thu, 21 Apr 2022 01:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-23 02:56:10.391652
- Title: Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification
- Title(参考訳): コヒーレントリスク対策のためのサンプルベース境界:政策合成と検証への応用
- Authors: Prithvi Akella, Anushri Dixit, Mohamadreza Ahmadi, Joel W. Burdick,
and Aaron D. Ames
- Abstract要約: 本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。
まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。
第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
- 参考スコア(独自算出の注目度): 32.9142708692264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dramatic increase of autonomous systems subject to variable environments
has given rise to the pressing need to consider risk in both the synthesis and
verification of policies for these systems. This paper aims to address a few
problems regarding risk-aware verification and policy synthesis, by first
developing a sample-based method to bound the risk measure evaluation of a
random variable whose distribution is unknown. These bounds permit us to
generate high-confidence verification statements for a large class of robotic
systems. Second, we develop a sample-based method to determine solutions to
non-convex optimization problems that outperform a large fraction of the
decision space of possible solutions. Both sample-based approaches then permit
us to rapidly synthesize risk-aware policies that are guaranteed to achieve a
minimum level of system performance. To showcase our approach in simulation, we
verify a cooperative multi-agent system and develop a risk-aware controller
that outperforms the system's baseline controller. We also mention how our
approach can be extended to account for any $g$-entropic risk measure - the
subset of coherent risk measures on which we focus.
- Abstract(参考訳): 可変環境に従属する自律システムの劇的な増加は、これらのシステムのためのポリシーの合成と検証の両方においてリスクを考える必要性が高まっている。
本稿では,まず,分布が不明な確率変数のリスク測度評価を限定するサンプルベース手法を開発し,リスク認識検証と政策合成に関するいくつかの問題に対処することを目的とする。
これらの境界により、大規模なロボットシステムに対して高信頼の検証文を生成することができる。
第2に,非凸最適化問題の解を決定するためのサンプルベース手法を開発し,可能解の決定空間の大部分を上回ります。
両方のサンプルベースのアプローチにより、最小レベルのシステム性能を達成することが保証されるリスク対応ポリシーを迅速に合成することができます。
シミュレーションのアプローチを示すために,協調型マルチエージェントシステムの検証と,システムのベースラインコントローラに匹敵するリスク対応コントローラの開発を行った。
我々はまた、我々のアプローチがどのようにしてg$-エントロピーリスク尺度(私たちがフォーカスするコヒーレントリスク尺度のサブセット)を考慮に入れられるかについても言及する。
関連論文リスト
- Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。
経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。
検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Two-stage Conformal Risk Control with Application to Ranked Retrieval [1.8481458455172357]
2段階のランク付け検索は、機械学習システムにとって重要な課題である。
両段階の閾値を共同で同定し,各段階のリスクを制御するための統合的アプローチを提案する。
提案アルゴリズムは,全ての可能なしきい値に対して,重み付けされた予測セットサイズの組み合わせをさらに最適化することにより,より効率的な予測セットを実現する。
論文 参考訳(メタデータ) (2024-04-27T03:37:12Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。
我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。
我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文 参考訳(メタデータ) (2023-08-30T08:46:46Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Multimodal Safety-Critical Scenarios Generation for Decision-Making
Algorithms Evaluation [23.43175124406634]
既存のニューラルネットワークベースの自律システムは、敵の攻撃に対して脆弱であることが示されている。
意思決定アルゴリズムの評価のためのフローベースマルチモーダル安全クリティカルシナリオジェネレータを提案する。
生成したトラフィックシナリオを用いて6つの強化学習アルゴリズムを評価し,その堅牢性に関する実証的な結論を提供する。
論文 参考訳(メタデータ) (2020-09-16T15:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。