論文の概要: Optimal sensor deception in stochastic environments with partial observability to mislead a robot to a decoy goal
- arxiv url: http://arxiv.org/abs/2503.05972v1
- Date: Fri, 07 Mar 2025 22:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:35.191040
- Title: Optimal sensor deception in stochastic environments with partial observability to mislead a robot to a decoy goal
- Title(参考訳): ロボットをデコイゴールに誤誘導する部分観測性を有する確率的環境における最適センサ誤認
- Authors: Hazhar Rahmani, Mukulika Ghosh, Syed Md Hasnayeen,
- Abstract要約: そこで本研究では,ロボットをデコイ目標に向けて誤認することを目的とした偽装問題を提案する。
我々は,ロボットがデコイゴールに達する確率を最大化するセンサ修正を計算する。
- 参考スコア(独自算出の注目度): 3.6458439734112695
- License:
- Abstract: Deception is a common strategy adapted by autonomous systems in adversarial settings. Existing deception methods primarily focus on increasing opacity or misdirecting agents away from their goal or itinerary. In this work, we propose a deception problem aiming to mislead the robot towards a decoy goal through altering sensor events under a constrained budget of alteration. The environment along with the robot's interaction with it is modeled as a Partially Observable Markov Decision Process (POMDP), and the robot's action selection is governed by a Finite State Controller (FSC). Given a constrained budget for sensor event modifications, the objective is to compute a sensor alteration that maximizes the probability of the robot reaching a decoy goal. We establish the computational hardness of the problem by a reduction from the $0/1$ Knapsack problem and propose a Mixed Integer Linear Programming (MILP) formulation to compute optimal deception strategies. We show the efficacy of our MILP formulation via a sequence of experiments.
- Abstract(参考訳): 騙しは、敵の設定において自律システムによって適応される一般的な戦略である。
既存の偽造方法は、主に不透明度の増加や、エージェントを目標や反復から遠ざけることに焦点を当てている。
本研究では,センサイベントの変更を制約付き予算で行うことにより,ロボットをデコイ目標に向けて誤誘導することを目的とした偽装問題を提案する。
ロボットとのインタラクションを伴う環境は、部分観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、ロボットの動作選択は有限状態コントローラ(FSC)によって管理される。
センサイベント修正のための制約付き予算が与えられた場合、目的は、ロボットがデコイゴールに達する確率を最大化するセンサー修正を計算することである。
我々は,0/1ドルのKnapsack問題から減らして問題の計算硬度を確立し,最適偽装戦略を計算するための混合整数線形計画法(MILP)を提案する。
実験の連続を通してMILPの定式化の有効性を示す。
関連論文リスト
- Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning [72.86540018081531]
ラベルなしの動作計画では、衝突回避を確保しながら、ロボットのセットを目標の場所に割り当てる。
この問題は、探査、監視、輸送などの応用において、マルチロボットシステムにとって不可欠なビルディングブロックを形成している。
この問題に対処するために、各ロボットは、その400ドルのアネレストロボットと$k$アネレストターゲットの位置のみを知っている分散環境で対処する。
論文 参考訳(メタデータ) (2024-09-29T23:57:25Z) - Data-Driven Goal Recognition Design for General Behavioral Agents [14.750023724230774]
汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。
本稿では,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
論文 参考訳(メタデータ) (2024-04-03T20:38:22Z) - OptiState: State Estimation of Legged Robots using Gated Networks with Transformer-based Vision and Kalman Filtering [42.817893456964]
脚のあるロボットの状態推定は、非常にダイナミックな動きとセンサーの精度による制限のために困難である。
本稿では,ロボットのトランクの状態を推定するために,プロピロセプションと外部受動的情報を組み合わせたハイブリッドソリューションを提案する。
このフレームワークは正確なロボットの状態推定を行うだけでなく、センサの測定や学習によるモデルの単純化から生じる非線形誤差を最小限に抑えることができる。
論文 参考訳(メタデータ) (2024-01-30T03:34:25Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Policy Learning for Active Target Tracking over Continuous SE(3)
Trajectories [17.02349693502558]
本稿では,移動ロボットを用いた動的目標追跡のためのモデルベースポリシー勾配アルゴリズムを提案する。
この課題は、目標分布エントロピーによって測定された目標状態の不確実性を低減するセンサ測定を収集する、移動ロボットの継続的な制御ポリシーを得ることである。
論文 参考訳(メタデータ) (2022-12-03T01:10:44Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - A distributed, plug-n-play algorithm for multi-robot applications with a
priori non-computable objective functions [2.2452191187045383]
マルチロボットアプリケーションでは、ミッションのユーザ定義の目的を一般的な最適化問題として当てはめることができる。
これらの問題には標準勾配の差分型アルゴリズムは適用できない。
本稿では,各ロボットのサブコスト関数を慎重に設計するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-14T20:40:00Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。