論文の概要: Resilient Strategies for Stochastic Systems: How Much Does It Take to Break a Winning Strategy?
- arxiv url: http://arxiv.org/abs/2602.24191v1
- Date: Fri, 27 Feb 2026 17:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.533507
- Title: Resilient Strategies for Stochastic Systems: How Much Does It Take to Break a Winning Strategy?
- Title(参考訳): 確率システムの回復戦略:勝利戦略を破るのにどのくらいかかるか?
- Authors: Kush Grover, Markel Zubia, Debraj Chakraborty, Muqsit Azeem, Nils Jansen, Jan Kretinsky,
- Abstract要約: 不確実性の存在下でのレジリエント戦略の問題点を考察する。
特に、エージェントが下した決定を覆すことができるような混乱に興味があります。
- 参考スコア(独自算出の注目度): 13.466929250280343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of resilient strategies in the presence of uncertainty. Resilient strategies enable an agent to make decisions that are robust against disturbances. In particular, we are interested in those disturbances that are able to flip a decision made by the agent. Such a disturbance may, for instance, occur when the intended action of the agent cannot be executed due to a malfunction of an actuator in the environment. In this work, we introduce the concept of resilience in the stochastic setting and present a comprehensive set of fundamental problems. Specifically, we discuss such problems for Markov decision processes with reachability and safety objectives, which also smoothly extend to stochastic games. To account for the stochastic setting, we provide various ways of aggregating the amounts of disturbances that may have occurred, for instance, in expectation or in the worst case. Moreover, to reason about infinite disturbances, we use quantitative measures, like their frequency of occurrence.
- Abstract(参考訳): 不確実性の存在下でのレジリエント戦略の問題点を考察する。
レジリエントな戦略は、エージェントが障害に対して堅牢な意思決定を可能にする。
特に、エージェントが下した決定を覆すことができるような混乱に興味があります。
このような障害は、例えば、エージェントの意図した動作が環境におけるアクチュエータの誤動作のために実行できない場合に起こりうる。
本研究では,確率的環境におけるレジリエンスの概念を導入し,基本問題の包括的集合を示す。
具体的には,マルコフ決定過程の到達性と安全性を考慮し,確率ゲームにも円滑に拡張する問題について論じる。
確率的設定を考慮し、予測や最悪の場合など、発生した可能性のある乱れの量を集約する様々な方法を提供する。
さらに、無限の乱れを推論するために、発生頻度のような定量的な測度を用いる。
関連論文リスト
- How Worst-Case Are Adversarial Attacks? Linking Adversarial and Perturbation Robustness [4.60092781176058]
アドリア攻撃はモデル脆弱性の特定に広く用いられているが、ランダムな摂動に対する堅牢性のためのプロキシとしての有効性については議論が続いている。
逆の例が、同じ大きさの摂動下での誤予測リスクを代表的に見積もっているかどうかを問う。
本研究では, 統計的に均一な雑音に近づいた体制において, 脆弱性を調査するための攻撃戦略を提案することにより, この接続の限界について検討する。
論文 参考訳(メタデータ) (2026-01-20T22:24:47Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - A Model for Optimal Resilient Planning Subject to Fallible Actuators [28.11583381961291]
我々は,Markov Decision Processes (MDP) フレームワーク内での故障を受けやすいアクチュエータによる計画の問題を定式化する。
このモデルは、利用駆動型故障とアクチュエータ故障の状態依存確率をキャプチャする。
我々は、構成が密接に関連する問題を生じさせるという観察を生かして、再使用による計算を省く機会を見出した。
論文 参考訳(メタデータ) (2024-05-18T22:07:38Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - On strategies for risk management and decision making under uncertainty shared across multiple fields [55.2480439325792]
本稿では、このような戦略の110以上の例を見つけ、リスクに対するこのアプローチをRDOT: Risk-reducing Design and Operations Toolkitと呼ぶ。
RDOT戦略は、構造的、反応性、形式的、敵対的、多段階、ポジティブの6つの幅広いカテゴリに分類される。
全体的なRDOTは、不確実性に対する多目的応答の見過ごされたクラスを表している。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - On solving decision and risk management problems subject to uncertainty [91.3755431537592]
不確実性は意思決定とリスク管理において広範囲にわたる課題である。
本稿では,このような戦略を体系的に理解し,その適用範囲を判断し,それらをうまく活用するための枠組みを開発する。
論文 参考訳(メタデータ) (2023-01-18T19:16:23Z) - Balancing detectability and performance of attacks on the control
channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。
この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文 参考訳(メタデータ) (2021-09-15T09:13:10Z) - Provable Guarantees on the Robustness of Decision Rules to Causal
Interventions [20.27500901133189]
データ生成プロセスの変化に対する決定ルールのロバストさは、意思決定システムのデプロイの成功に不可欠である。
我々は因果ベイズネットワークを考察し、介入堅牢性問題を正式に定義する。
干渉確率の保証された上下境界を計算するための効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-05-19T13:09:47Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。