論文の概要: Value of Information-based Deceptive Path Planning Under Adversarial Interventions
- arxiv url: http://arxiv.org/abs/2503.24284v1
- Date: Mon, 31 Mar 2025 16:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:15.396322
- Title: Value of Information-based Deceptive Path Planning Under Adversarial Interventions
- Title(参考訳): 敵対的介入下における情報に基づく認知的経路計画の価値
- Authors: Wesley A. Suttle, Jesse Milzman, Mustafa O. Karabag, Brian M. Sadler, Ufuk Topcu,
- Abstract要約: 本稿では,新たなマルコフ決定プロセス (MDP) モデルを提案する。
我々の提案するVoI目標を用いて、経路計画エージェントは、敵の観察者を騙して、最適下介入を選択する。
- 参考スコア(独自算出の注目度): 26.543790095871433
- License:
- Abstract: Existing methods for deceptive path planning (DPP) address the problem of designing paths that conceal their true goal from a passive, external observer. Such methods do not apply to problems where the observer has the ability to perform adversarial interventions to impede the path planning agent. In this paper, we propose a novel Markov decision process (MDP)-based model for the DPP problem under adversarial interventions and develop new value of information (VoI) objectives to guide the design of DPP policies. Using the VoI objectives we propose, path planning agents deceive the adversarial observer into choosing suboptimal interventions by selecting trajectories that are of low informational value to the observer. Leveraging connections to the linear programming theory for MDPs, we derive computationally efficient solution methods for synthesizing policies for performing DPP under adversarial interventions. In our experiments, we illustrate the effectiveness of the proposed solution method in achieving deceptiveness under adversarial interventions and demonstrate the superior performance of our approach to both existing DPP methods and conservative path planning approaches on illustrative gridworld problems.
- Abstract(参考訳): DPP(deceptive path planning)の既存の手法は、受動的で外部の観測者から真の目標を隠蔽する経路の設計の問題に対処する。
このような手法は、観測者が経路計画エージェントを妨害する敵の介入を行う能力を持つ問題には適用されない。
本稿では, DPP問題に対する新たなマルコフ決定プロセス (MDP) モデルを提案する。
我々の提案するVoI目標を用いて、経路計画エージェントは、観測者に対して低情報価値の軌跡を選択することにより、敵対的オブザーバーを騙して最適な介入を選択する。
MDPに対する線形プログラミング理論への接続を利用して、敵の介入の下でDPPを実行するためのポリシーを合成するための計算効率の良い解法を導出する。
本実験では,提案手法の有効性を検証し,既存のDPP手法と保守的経路計画手法の双方において,実証的グリッドワールド問題に対する優れた性能を示す。
関連論文リスト
- Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - PDPP: Projected Diffusion for Procedure Planning in Instructional Videos [18.984980596601513]
本研究では,現在の視覚的観察と目的を考慮に入れた計画(一連の行動)の実現を目的とした指導ビデオにおけるプロシージャ計画の課題について検討する。
以前の研究は、これをシーケンスモデリングの問題とみなし、中間的な視覚観察または言語指示を監督として活用した。
自己回帰的に計画することによる中間的監視アノテーションやエラーの蓄積を回避するため,拡散型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T10:50:16Z) - An Auction-based Coordination Strategy for Task-Constrained Multi-Agent
Stochastic Planning with Submodular Rewards [7.419725234099728]
既存のタスク調整アルゴリズムはプロセスを無視したり、計算強度に悩まされる。
新たに定式化されたスコア関数を用いた分散オークションベースのコーディネート戦略を提案する。
大規模アプリケーションの実装には,提案手法の近似変種,すなわちDeep Auctionも提案されている。
論文 参考訳(メタデータ) (2022-12-30T10:25:25Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - E-PDDL: A Standardized Way of Defining Epistemic Planning Problems [11.381221864778976]
エピステミック・プランニング(EP: Epistemic Planning)とは、知識状態の空間においてエージェントが原因となる自動的な計画環境を指す。
本稿では,EP問題を特定する統一的な手法として,疫学計画ドメイン言語(EPDDL)を提案する。
本稿では,e-PDDLを主要なMEPプランナによってサポートでき,複数のプランナが処理できるMEP問題にMEP問題を変換する対応するコードを提供する。
論文 参考訳(メタデータ) (2021-07-19T10:20:20Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Adaptive Informative Path Planning with Multimodal Sensing [36.16721115973077]
AIPPMS(マルチモーダルセンシング用MS)
AIPPMSを部分的に観測可能なマルコフ決定プロセス(POMDP)として、オンラインプランニングで解決する。
シミュレーションされた検索・救助シナリオと,従来のRockSample問題への挑戦的拡張の2つの領域について,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-21T20:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。