論文の概要: Surveillance Evasion Through Bayesian Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.14811v1
- Date: Thu, 30 Sep 2021 02:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:38:26.054569
- Title: Surveillance Evasion Through Bayesian Reinforcement Learning
- Title(参考訳): ベイズ強化学習による監視回避
- Authors: Dongping Qi, David Bindel, Alexander Vladimirsky
- Abstract要約: ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
- 参考スコア(独自算出の注目度): 78.79938727251594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a 2D continuous path planning problem with a completely unknown
intensity of random termination: an Evader is trying to escape a domain while
minimizing the cumulative risk of detection (termination) by adversarial
Observers. Those Observers' surveillance intensity is a priori unknown and has
to be learned through repetitive path planning. We propose a new algorithm that
utilizes Gaussian process regression to model the unknown surveillance
intensity and relies on a confidence bound technique to promote strategic
exploration. We illustrate our method through several examples and confirm the
convergence of averaged regret experimentally.
- Abstract(参考訳): 我々は,無作為終了の強さが全く不明な2次元連続経路計画問題を考える。回避者は,敵オブザーバによる検出(ターミネーション)の累積リスクを最小化しつつ,ドメインを脱出しようとする。
観測者の監視力は未熟であり、繰り返し経路計画を通じて学ぶ必要がある。
ガウス過程回帰(gaussian process regression)を用いて未知の監視強度をモデル化する新しいアルゴリズムを提案し,戦略探索を促進するための信頼結合手法に依拠する。
本手法をいくつかの例から説明し,平均的な後悔の収束を実験的に確認する。
関連論文リスト
- Distributionally Robust Inverse Reinforcement Learning for Identifying Multi-Agent Coordinated Sensing [13.440621354486906]
我々は、マルチエージェントセンシングシステムの実用機能を再構築するために、分布性に頑健な逆強化学習(IRL)アルゴリズムを導出する。
このロバストな推定と半無限の最適化再構成の等価性を証明し、計算解に対する一貫したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-22T17:44:32Z) - Provably Efficient Partially Observable Risk-Sensitive Reinforcement
Learning with Hindsight Observation [35.278669159850146]
本稿では,後方観測を部分的に観測可能な決定プロセス(POMDP)フレームワークに統合する新しい定式化を提案する。
本研究では,この設定に適したRLアルゴリズムを初めて提案する。
これらの手法は、強化学習の理論的研究に特に関心がある。
論文 参考訳(メタデータ) (2024-02-28T08:24:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Contrastive Pseudo Learning for Open-World DeepFake Attribution [67.58954345538547]
オープンワールド・ディープフェイク (OW-DFA) と呼ばれる新しいベンチマークを導入する。
OW-DFAタスクにおけるコントラスト擬似学習(Contrastive Pseudo Learning, CPL)と呼ばれる新しいフレームワークを提案する。1)グローバル・ローカル投票モジュールを導入し、異なる操作領域の偽顔の特徴的アライメントを誘導し、2)信頼に基づくソフト擬似ラベル戦略を設計し、類似の手法による非ラベル集合における擬似雑音の軽減を図る。
論文 参考訳(メタデータ) (2023-09-20T08:29:22Z) - Detecting Adversarial Directions in Deep Reinforcement Learning to Make
Robust Decisions [8.173034693197351]
MDPにおける非破壊方向の存在を検出するための新しい手法を提案する。
本手法は, 安全観測と逆観測の基本的な切り離しの理論的基礎を提供する。
さらに, 提案手法を回避すべく, 非破壊方向が明示的に最適化されている場合においても, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-09T13:11:05Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance [1.1470070927586016]
我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
論文 参考訳(メタデータ) (2022-09-30T13:00:33Z) - ADER:Adapting between Exploration and Robustness for Actor-Critic
Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。
本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。
いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-09-08T05:48:39Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。