論文の概要: Covert Planning against Imperfect Observers
- arxiv url: http://arxiv.org/abs/2310.16791v2
- Date: Wed, 1 Nov 2023 17:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:23:49.589569
- Title: Covert Planning against Imperfect Observers
- Title(参考訳): 不完全なオブザーバに対するカバープランニング
- Authors: Haoxiang Ma, Chongyang Shi, Shuo Han, Michael R. Dorothy, and Jie Fu
- Abstract要約: カバー・プランニング(英: Covert Planning)とは、エージェントが受動的オブザーバに漏れた最小限の情報でタスクを遂行し、検出を避けることを目的とした制約された計画問題である。
本稿では,観測者の不完全な観測と力学の結合を利用して,検出されることなく最適性能を実現する方法について検討する。
- 参考スコア(独自算出の注目度): 29.610121527096286
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Covert planning refers to a class of constrained planning problems where an
agent aims to accomplish a task with minimal information leaked to a passive
observer to avoid detection. However, existing methods of covert planning often
consider deterministic environments or do not exploit the observer's imperfect
information. This paper studies how covert planning can leverage the coupling
of stochastic dynamics and the observer's imperfect observation to achieve
optimal task performance without being detected. Specifically, we employ a
Markov decision process to model the interaction between the agent and its
stochastic environment, and a partial observation function to capture the
leaked information to a passive observer. Assuming the observer employs
hypothesis testing to detect if the observation deviates from a nominal policy,
the covert planning agent aims to maximize the total discounted reward while
keeping the probability of being detected as an adversary below a given
threshold. We prove that finite-memory policies are more powerful than
Markovian policies in covert planning. Then, we develop a primal-dual proximal
policy gradient method with a two-time-scale update to compute a (locally)
optimal covert policy. We demonstrate the effectiveness of our methods using a
stochastic gridworld example. Our experimental results illustrate that the
proposed method computes a policy that maximizes the adversary's expected
reward without violating the detection constraint, and empirically demonstrates
how the environmental noises can influence the performance of the covert
policies.
- Abstract(参考訳): 隠ぺい計画(英: covert planning)とは、エージェントが検出を避けるために受動的オブザーバにリークする最小限の情報でタスクを達成することを目的とした、制約付き計画問題のクラスである。
しかし、既存の隠蔽計画手法は、しばしば決定論的環境を考慮するか、あるいは観測者の不完全な情報を活用しない。
本稿では,隠密計画が確率力学と観測者の不完全観測の結合をいかに活用し,最適タスク性能を検出せずに達成できるかについて検討する。
具体的には,エージェントと確率環境の相互作用をモデル化するためのマルコフ決定プロセスと,漏洩した情報を受動的オブザーバにキャプチャする部分観測関数を用いる。
観察者が名目的方針から逸脱したかどうかを検出するために仮説テストを採用するとすると、隠蔽計画エージェントは、所定の閾値以下の敵として検出される確率を維持しつつ、全割引報酬を最大化する。
有限メモリポリシは隠蔽計画におけるマルコフポリシよりも強力であることを示す。
そこで本研究では,(局所的に)最適カラットポリシーを計算するために,二度スケール更新による初歩的近位政策勾配法を開発した。
確率的グリッドワールドの例を用いて,提案手法の有効性を示す。
提案手法は,検出制約に違反することなく,敵が期待する報酬を最大化するポリシーを計算し,環境騒音が隠れたポリシーのパフォーマンスにどのように影響するかを実証的に示す。
関連論文リスト
- How to Exhibit More Predictable Behaviors [3.5248694676821484]
本稿では,外部オブザーバが行うことができる予測を最適化するために,エージェントがその戦略を選択する必要がある予測可能性問題について考察する。
環境力学や観察対象者の政策について不確実性を考慮して検討する。
本稿では,エージェントポリシーに対するオブザーバの信念に基づいて,報酬関数を用いた行動予測可能性評価基準を提案する。
論文 参考訳(メタデータ) (2024-04-17T12:06:17Z) - Distributional Method for Risk Averse Reinforcement Learning [0.0]
リスク逆マルコフ決定過程における最適政策を学習するための分布法を提案する。
我々は、状態、行動、コストの連続的な観察を仮定し、動的リスク尺度を用いて政策のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-02-27T19:48:42Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。