論文の概要: Deceptive Sequential Decision-Making via Regularized Policy Optimization
- arxiv url: http://arxiv.org/abs/2501.18803v1
- Date: Thu, 30 Jan 2025 23:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:58:17.786235
- Title: Deceptive Sequential Decision-Making via Regularized Policy Optimization
- Title(参考訳): 規則化されたポリシー最適化による知覚的順序決定過程
- Authors: Yerin Kim, Alexander Benvenuti, Bo Chen, Mustafa Karabag, Abhishek Kulkarni, Nathaniel D. Bastian, Ufuk Topcu, Matthew Hale,
- Abstract要約: システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの正則化戦略を提示する。
政策最適化問題において,各形態の騙しをいかに実装できるかを示す。
ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、同時に、その最適で非知覚的な価値の980.83%の合計的な報酬を得ることを示せる。
- 参考スコア(独自算出の注目度): 54.38738815697299
- License:
- Abstract: Autonomous systems are increasingly expected to operate in the presence of adversaries, though an adversary may infer sensitive information simply by observing a system, without even needing to interact with it. Therefore, in this work we present a deceptive decision-making framework that not only conceals sensitive information, but in fact actively misleads adversaries about it. We model autonomous systems as Markov decision processes, and we consider adversaries that attempt to infer their reward functions using inverse reinforcement learning. To counter such efforts, we present two regularization strategies for policy synthesis problems that actively deceive an adversary about a system's underlying rewards. The first form of deception is ``diversionary'', and it leads an adversary to draw any false conclusion about what the system's reward function is. The second form of deception is ``targeted'', and it leads an adversary to draw a specific false conclusion about what the system's reward function is. We then show how each form of deception can be implemented in policy optimization problems, and we analytically bound the loss in total accumulated reward that is induced by deception. Next, we evaluate these developments in a multi-agent sequential decision-making problem with one real agent and multiple decoys. We show that diversionary deception can cause the adversary to believe that the most important agent is the least important, while attaining a total accumulated reward that is $98.83\%$ of its optimal, non-deceptive value. Similarly, we show that targeted deception can make any decoy appear to be the most important agent, while still attaining a total accumulated reward that is $99.25\%$ of its optimal, non-deceptive value.
- Abstract(参考訳): 自律システムは敵の存在下で運用されることがますます期待されているが、敵はシステムを監視するだけで機密情報を推測し、それと対話する必要はない。
そこで本研究では, 機密情報を隠蔽するだけでなく, 敵を積極的に誤解させる, 疑わしい意思決定の枠組みを提案する。
我々は、自律的なシステムをマルコフ決定過程としてモデル化し、逆強化学習を用いて報酬関数を推論しようとする敵を考察する。
このような取り組みに対処するために,システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの規則化戦略を提案する。
偽装の第一形態は ``diversionary'' であり、システムの報酬関数が何かという誤った結論を引き出す。
第二の騙しの形式は ``targeted'' であり、敵はシステムの報酬関数が何であるかについて特定の誤った結論を導き出す。
次に、政策最適化問題において、それぞれの偽装形態をどのように実装できるかを示し、偽装によって引き起こされる総累積報酬の損失を解析的に拘束する。
次に、1つの実エージェントと複数のデコイを用いた複数エージェントの逐次決定問題において、これらの発展を評価する。
ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、かつ、その最適で非認知的価値の9,8.83 %の合計的な報酬を得られることを示せる。
同様に、ターゲットの偽装は任意のデコイを最も重要なエージェントと見なすことができるが、それでもその最適な非偽装値の99.25\%の合計的な報酬を得ることができる。
関連論文リスト
- Game of Coding With an Unknown Adversary [15.839621757142597]
新興の分散型アプリケーションによって動機づけられたコーディングフレームワークは、符号化されたシンボルに対する敵の制御が従来の符号化理論の基本的な限界を超えるシナリオに対処するために導入された。
デコーダは、データコレクタ(DC)として、受け入れと拒絶のメカニズムを持ち、次に推定モジュールが続くが、敵は、その実用性を最大化することを目指している。
我々は,直流が相手の効用関数を知らずに平衡付近で達成できる戦略にコミットできるアルゴリズムを開発する。
論文 参考訳(メタデータ) (2025-02-10T23:06:10Z) - Inception: Efficiently Computable Misinformation Attacks on Markov Games [14.491458698581038]
情報非対称性と誤情報によるマルコフゲームに対するセキュリティ脅威について検討する。
我々は、攻撃者の最適な最悪のケースポリシーを計算するために、最悪のケース合理性と現在のアルゴリズムの下で被害者のポリシーを導出する。
我々の研究は、誤った情報の下での標準的なゲームの仮定からセキュリティの脆弱性を露呈する。
論文 参考訳(メタデータ) (2024-06-24T20:01:43Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Admissible Policy Teaching through Reward Design [32.39785256112934]
我々は、強化学習エージェントに報酬設計戦略を奨励し、許容可能な政策の集合から政策を採用するための報酬設計戦略について研究する。
報酬設計者の目標は、新たな報酬関数の下でのほぼ最適な決定的ポリシーが許容可能であることを保証しつつ、その基礎となる報酬関数をコスト効率良く修正することである。
論文 参考訳(メタデータ) (2022-01-06T18:49:57Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。