Fugu-MT 論文翻訳(概要): Sample-Based Bounds for Coherent Risk Measures: Applications to Policy Synthesis and Verification

論文の概要: Sample-Based Bounds for Coherent Risk Measures: Applications to Policy Synthesis and Verification

arxiv url: http://arxiv.org/abs/2204.09833v1
Date: Thu, 21 Apr 2022 01:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-23 02:56:10.391652
Title: Sample-Based Bounds for Coherent Risk Measures: Applications to Policy Synthesis and Verification
Title（参考訳）: コヒーレントリスク対策のためのサンプルベース境界:政策合成と検証への応用
Authors: Prithvi Akella, Anushri Dixit, Mohamadreza Ahmadi, Joel W. Burdick, and Aaron D. Ames
Abstract要約: 本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
参考スコア（独自算出の注目度）: 32.9142708692264
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The dramatic increase of autonomous systems subject to variable environments has given rise to the pressing need to consider risk in both the synthesis and verification of policies for these systems. This paper aims to address a few problems regarding risk-aware verification and policy synthesis, by first developing a sample-based method to bound the risk measure evaluation of a random variable whose distribution is unknown. These bounds permit us to generate high-confidence verification statements for a large class of robotic systems. Second, we develop a sample-based method to determine solutions to non-convex optimization problems that outperform a large fraction of the decision space of possible solutions. Both sample-based approaches then permit us to rapidly synthesize risk-aware policies that are guaranteed to achieve a minimum level of system performance. To showcase our approach in simulation, we verify a cooperative multi-agent system and develop a risk-aware controller that outperforms the system's baseline controller. We also mention how our approach can be extended to account for any $g$-entropic risk measure - the subset of coherent risk measures on which we focus.
Abstract（参考訳）: 可変環境に従属する自律システムの劇的な増加は、これらのシステムのためのポリシーの合成と検証の両方においてリスクを考える必要性が高まっている。本稿では,まず,分布が不明な確率変数のリスク測度評価を限定するサンプルベース手法を開発し,リスク認識検証と政策合成に関するいくつかの問題に対処することを目的とする。これらの境界により、大規模なロボットシステムに対して高信頼の検証文を生成することができる。第2に,非凸最適化問題の解を決定するためのサンプルベース手法を開発し,可能解の決定空間の大部分を上回ります。両方のサンプルベースのアプローチにより、最小レベルのシステム性能を達成することが保証されるリスク対応ポリシーを迅速に合成することができます。シミュレーションのアプローチを示すために,協調型マルチエージェントシステムの検証と,システムのベースラインコントローラに匹敵するリスク対応コントローラの開発を行った。我々はまた、我々のアプローチがどのようにしてg$-エントロピーリスク尺度(私たちがフォーカスするコヒーレントリスク尺度のサブセット)を考慮に入れられるかについても言及する。

関連論文リスト

MultiRisk: Multiple Risk Control via Iterative Score Thresholding [40.193623095603265]
我々は、ユーザ定義の優先順位で複数のリスク制約を強制する問題を定式化する。このシーケンシャルな構造を利用する2つの効率的な動的プログラミングアルゴリズムを導入する。提案アルゴリズムは,個々のリスクを目標レベルに近いレベルで制御できることを示す。
論文参考訳（メタデータ） (2025-12-31T03:25:30Z)
Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。 RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文参考訳（メタデータ） (2025-12-30T14:38:02Z)
A Methodology for Quantitative AI Risk Modeling [32.594929429306774]
本稿では、シナリオ構築と定量的リスク推定を統合する手法を導入することにより、AIリスク管理のリスクモデリングコンポーネントを進化させる。我々の手法は、サイバー犯罪、生物兵器開発、有害な操作、制御の喪失など、主要なシステム的AIリスクに適用できるように設計されている。
論文参考訳（メタデータ） (2025-12-09T17:34:59Z)
RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。リスク概念空間を再構築する理論的枠組みを導入する。マルチエージェント協調評価フレームワークRADARを提案する。
論文参考訳（メタデータ） (2025-09-28T09:35:32Z)
Adapting Probabilistic Risk Assessment for AI [0.0]
汎用人工知能(AI)システムは、緊急リスク管理の課題を示す。現在の手法は、しばしば選択的なテストとリスク優先順位に関する未文書の仮定に依存します。本稿では,AIフレームワークの確率的リスクアセスメント(PRA)を紹介する。
論文参考訳（メタデータ） (2025-04-25T17:59:14Z)
Free Energy Risk Metrics for Systemically Safe AI: Gatekeeping Multi-Agent Study [0.4166512373146748]
エージェントおよびマルチエージェントシステムにおけるリスク測定の基礎として,フリーエネルギー原理を考察する。異なる状況やニーズに対してフレキシブルな累積的リスク露光指標を導入します。 AV艦隊におけるゲートキーパーの導入は,低浸透時であっても,システム安全性の向上の観点から,大きな肯定的な外部性を生み出すことが示されている。
論文参考訳（メタデータ） (2025-02-06T17:38:45Z)
Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文参考訳（メタデータ） (2024-09-30T04:02:52Z)
EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)
Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文参考訳（メタデータ） (2024-08-06T10:48:15Z)
Two-stage Conformal Risk Control with Application to Ranked Retrieval [1.8481458455172357]
2段階のランク付け検索は、機械学習システムにとって重要な課題である。両段階の閾値を共同で同定し,各段階のリスクを制御するための統合的アプローチを提案する。提案アルゴリズムは,全ての可能なしきい値に対して,重み付けされた予測セットサイズの組み合わせをさらに最適化することにより,より効率的な予測セットを実現する。
論文参考訳（メタデータ） (2024-04-27T03:37:12Z)
Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文参考訳（メタデータ） (2024-03-28T17:28:06Z)
A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文参考訳（メタデータ） (2024-03-10T21:45:12Z)
Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文参考訳（メタデータ） (2023-12-21T16:34:03Z)
RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。 RiskQは広範な実験によって有望な性能が得られることを示す。
論文参考訳（メタデータ） (2023-11-03T07:18:36Z)
Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文参考訳（メタデータ） (2023-08-30T08:46:46Z)
Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文参考訳（メタデータ） (2022-07-02T05:01:19Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Multimodal Safety-Critical Scenarios Generation for Decision-Making Algorithms Evaluation [23.43175124406634]
既存のニューラルネットワークベースの自律システムは、敵の攻撃に対して脆弱であることが示されている。意思決定アルゴリズムの評価のためのフローベースマルチモーダル安全クリティカルシナリオジェネレータを提案する。生成したトラフィックシナリオを用いて6つの強化学習アルゴリズムを評価し,その堅牢性に関する実証的な結論を提供する。
論文参考訳（メタデータ） (2020-09-16T15:16:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。