論文の概要: Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification
- arxiv url: http://arxiv.org/abs/2204.09833v1
- Date: Thu, 21 Apr 2022 01:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-23 02:56:10.391652
- Title: Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification
- Title(参考訳): コヒーレントリスク対策のためのサンプルベース境界:政策合成と検証への応用
- Authors: Prithvi Akella, Anushri Dixit, Mohamadreza Ahmadi, Joel W. Burdick,
and Aaron D. Ames
- Abstract要約: 本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。
まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。
第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
- 参考スコア(独自算出の注目度): 32.9142708692264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dramatic increase of autonomous systems subject to variable environments
has given rise to the pressing need to consider risk in both the synthesis and
verification of policies for these systems. This paper aims to address a few
problems regarding risk-aware verification and policy synthesis, by first
developing a sample-based method to bound the risk measure evaluation of a
random variable whose distribution is unknown. These bounds permit us to
generate high-confidence verification statements for a large class of robotic
systems. Second, we develop a sample-based method to determine solutions to
non-convex optimization problems that outperform a large fraction of the
decision space of possible solutions. Both sample-based approaches then permit
us to rapidly synthesize risk-aware policies that are guaranteed to achieve a
minimum level of system performance. To showcase our approach in simulation, we
verify a cooperative multi-agent system and develop a risk-aware controller
that outperforms the system's baseline controller. We also mention how our
approach can be extended to account for any $g$-entropic risk measure - the
subset of coherent risk measures on which we focus.
- Abstract(参考訳): 可変環境に従属する自律システムの劇的な増加は、これらのシステムのためのポリシーの合成と検証の両方においてリスクを考える必要性が高まっている。
本稿では,まず,分布が不明な確率変数のリスク測度評価を限定するサンプルベース手法を開発し,リスク認識検証と政策合成に関するいくつかの問題に対処することを目的とする。
これらの境界により、大規模なロボットシステムに対して高信頼の検証文を生成することができる。
第2に,非凸最適化問題の解を決定するためのサンプルベース手法を開発し,可能解の決定空間の大部分を上回ります。
両方のサンプルベースのアプローチにより、最小レベルのシステム性能を達成することが保証されるリスク対応ポリシーを迅速に合成することができます。
シミュレーションのアプローチを示すために,協調型マルチエージェントシステムの検証と,システムのベースラインコントローラに匹敵するリスク対応コントローラの開発を行った。
我々はまた、我々のアプローチがどのようにしてg$-エントロピーリスク尺度(私たちがフォーカスするコヒーレントリスク尺度のサブセット)を考慮に入れられるかについても言及する。
関連論文リスト
- Free Energy Risk Metrics for Systemically Safe AI: Gatekeeping Multi-Agent Study [0.4166512373146748]
エージェントおよびマルチエージェントシステムにおけるリスク測定の基礎として,フリーエネルギー原理を考察する。
異なる状況やニーズに対してフレキシブルな累積的リスク露光指標を導入します。
AV艦隊におけるゲートキーパーの導入は,低浸透時であっても,システム安全性の向上の観点から,大きな肯定的な外部性を生み出すことが示されている。
論文 参考訳(メタデータ) (2025-02-06T17:38:45Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - RiskBench: A Scenario-based Benchmark for Risk Identification [4.263035319815899]
この研究は、リスク識別、ダイナミックなトラフィック参加者と予期せぬイベントから生じるリスクを特定し分析するプロセスに焦点を当てている。
リスク識別のための大規模シナリオベースベンチマークである textbfRiskBench を紹介する。
我々は,(1)リスクの検出と発見,(2)リスクの予測,(3)意思決定の促進を行う10のアルゴリズムの能力を評価する。
論文 参考訳(メタデータ) (2023-12-04T06:21:22Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Multimodal Safety-Critical Scenarios Generation for Decision-Making
Algorithms Evaluation [23.43175124406634]
既存のニューラルネットワークベースの自律システムは、敵の攻撃に対して脆弱であることが示されている。
意思決定アルゴリズムの評価のためのフローベースマルチモーダル安全クリティカルシナリオジェネレータを提案する。
生成したトラフィックシナリオを用いて6つの強化学習アルゴリズムを評価し,その堅牢性に関する実証的な結論を提供する。
論文 参考訳(メタデータ) (2020-09-16T15:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。