論文の概要: Deceptive Sequential Decision-Making via Regularized Policy Optimization
- arxiv url: http://arxiv.org/abs/2501.18803v2
- Date: Wed, 20 Aug 2025 20:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 14:03:17.044092
- Title: Deceptive Sequential Decision-Making via Regularized Policy Optimization
- Title(参考訳): 規則化されたポリシー最適化による知覚的順序決定過程
- Authors: Yerin Kim, Alexander Benvenuti, Bo Chen, Mustafa Karabag, Abhishek Kulkarni, Nathaniel D. Bastian, Ufuk Topcu, Matthew Hale,
- Abstract要約: 我々は,自律的なシステムをマルコフ決定プロセスとしてモデル化し,逆強化学習を用いて報酬関数を復元する。
本稿では,システム報酬に対する敵意を積極的に欺く政策合成問題に対する3つの規則化戦略を示す。
我々は,その最適かつ非知覚的価値の少なくとも97%の累積報酬を達成しつつ,反逆的,標的的,公平な詐欺が虚偽の信念に逆らうことを示している。
- 参考スコア(独自算出の注目度): 54.38738815697299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems are increasingly expected to operate in the presence of adversaries, though adversaries may infer sensitive information simply by observing a system. Therefore, present a deceptive sequential decision-making framework that not only conceals sensitive information, but actively misleads adversaries about it. We model autonomous systems as Markov decision processes, with adversaries using inverse reinforcement learning to recover reward functions. To counter them, we present three regularization strategies for policy synthesis problems that actively deceive an adversary about a system's reward. ``Diversionary deception'' leads an adversary to draw any false conclusion about the system's reward function. ``Targeted deception'' leads an adversary to draw a specific false conclusion about the system's reward function. ``Equivocal deception'' leads an adversary to infer that the real reward and a false reward both explain the system's behavior. We show how each form of deception can be implemented in policy optimization problems and analytically bound the loss in total accumulated reward induced by deception. Next, we evaluate these developments in a multi-agent setting. We show that diversionary, targeted, and equivocal deception all steer the adversary to false beliefs while still attaining a total accumulated reward that is at least 97% of its optimal, non-deceptive value.
- Abstract(参考訳): 自律システムは敵の存在下で運用されることがますます期待されているが、敵はシステムを監視するだけで機密情報を推測することができる。
そこで, センシティブな情報を隠蔽するだけでなく, 敵を積極的に誤解させる, 連続的な意思決定の枠組みを提案する。
我々は,自律的なシステムをマルコフ決定プロセスとしてモデル化し,逆強化学習を用いて報酬関数を復元する。
そこで本研究では,システム報酬に対する敵意を積極的に欺く政策合成問題の正則化戦略を3つ提示する。
`Diversionary deception'' は、システムの報酬関数に関する誤った結論を引き出す敵を導く。
は、システムの報酬関数に関する特定の偽の結論を引き出す敵を導く。
`equivocal deception'' は、真の報酬と虚偽の報酬の両方がシステムの振る舞いを説明することを、相手に推論させる。
本稿では, 政策最適化問題において, それぞれの偽装形態をどのように実装し, 偽装によって引き起こされた累積報酬の損失を解析的に拘束するかを示す。
次に、これらの開発状況をマルチエージェント環境で評価する。
我々は,その最適かつ非知覚的価値の少なくとも97%の累積報酬を達成しつつ,反逆的,標的的,公平な詐欺が虚偽の信念に逆らうことを示している。
関連論文リスト
- Inception: Efficiently Computable Misinformation Attacks on Markov Games [14.491458698581038]
情報非対称性と誤情報によるマルコフゲームに対するセキュリティ脅威について検討する。
我々は、攻撃者の最適な最悪のケースポリシーを計算するために、最悪のケース合理性と現在のアルゴリズムの下で被害者のポリシーを導出する。
我々の研究は、誤った情報の下での標準的なゲームの仮定からセキュリティの脆弱性を露呈する。
論文 参考訳(メタデータ) (2024-06-24T20:01:43Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Admissible Policy Teaching through Reward Design [32.39785256112934]
我々は、強化学習エージェントに報酬設計戦略を奨励し、許容可能な政策の集合から政策を採用するための報酬設計戦略について研究する。
報酬設計者の目標は、新たな報酬関数の下でのほぼ最適な決定的ポリシーが許容可能であることを保証しつつ、その基礎となる報酬関数をコスト効率良く修正することである。
論文 参考訳(メタデータ) (2022-01-06T18:49:57Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。