論文の概要: Deceptive Sequential Decision-Making via Regularized Policy Optimization
- arxiv url: http://arxiv.org/abs/2501.18803v2
- Date: Wed, 20 Aug 2025 20:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 14:03:17.044092
- Title: Deceptive Sequential Decision-Making via Regularized Policy Optimization
- Title(参考訳): 規則化されたポリシー最適化による知覚的順序決定過程
- Authors: Yerin Kim, Alexander Benvenuti, Bo Chen, Mustafa Karabag, Abhishek Kulkarni, Nathaniel D. Bastian, Ufuk Topcu, Matthew Hale,
- Abstract要約: 我々は,自律的なシステムをマルコフ決定プロセスとしてモデル化し,逆強化学習を用いて報酬関数を復元する。
本稿では,システム報酬に対する敵意を積極的に欺く政策合成問題に対する3つの規則化戦略を示す。
我々は,その最適かつ非知覚的価値の少なくとも97%の累積報酬を達成しつつ,反逆的,標的的,公平な詐欺が虚偽の信念に逆らうことを示している。
- 参考スコア(独自算出の注目度): 54.38738815697299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems are increasingly expected to operate in the presence of adversaries, though adversaries may infer sensitive information simply by observing a system. Therefore, present a deceptive sequential decision-making framework that not only conceals sensitive information, but actively misleads adversaries about it. We model autonomous systems as Markov decision processes, with adversaries using inverse reinforcement learning to recover reward functions. To counter them, we present three regularization strategies for policy synthesis problems that actively deceive an adversary about a system's reward. ``Diversionary deception'' leads an adversary to draw any false conclusion about the system's reward function. ``Targeted deception'' leads an adversary to draw a specific false conclusion about the system's reward function. ``Equivocal deception'' leads an adversary to infer that the real reward and a false reward both explain the system's behavior. We show how each form of deception can be implemented in policy optimization problems and analytically bound the loss in total accumulated reward induced by deception. Next, we evaluate these developments in a multi-agent setting. We show that diversionary, targeted, and equivocal deception all steer the adversary to false beliefs while still attaining a total accumulated reward that is at least 97% of its optimal, non-deceptive value.
- Abstract(参考訳): 自律システムは敵の存在下で運用されることがますます期待されているが、敵はシステムを監視するだけで機密情報を推測することができる。
そこで, センシティブな情報を隠蔽するだけでなく, 敵を積極的に誤解させる, 連続的な意思決定の枠組みを提案する。
我々は,自律的なシステムをマルコフ決定プロセスとしてモデル化し,逆強化学習を用いて報酬関数を復元する。
そこで本研究では,システム報酬に対する敵意を積極的に欺く政策合成問題の正則化戦略を3つ提示する。
`Diversionary deception'' は、システムの報酬関数に関する誤った結論を引き出す敵を導く。
は、システムの報酬関数に関する特定の偽の結論を引き出す敵を導く。
`equivocal deception'' は、真の報酬と虚偽の報酬の両方がシステムの振る舞いを説明することを、相手に推論させる。
本稿では, 政策最適化問題において, それぞれの偽装形態をどのように実装し, 偽装によって引き起こされた累積報酬の損失を解析的に拘束するかを示す。
次に、これらの開発状況をマルチエージェント環境で評価する。
我々は,その最適かつ非知覚的価値の少なくとも97%の累積報酬を達成しつつ,反逆的,標的的,公平な詐欺が虚偽の信念に逆らうことを示している。
関連論文リスト
- Inception: Efficiently Computable Misinformation Attacks on Markov Games [14.491458698581038]
情報非対称性と誤情報によるマルコフゲームに対するセキュリティ脅威について検討する。
我々は、攻撃者の最適な最悪のケースポリシーを計算するために、最悪のケース合理性と現在のアルゴリズムの下で被害者のポリシーを導出する。
我々の研究は、誤った情報の下での標準的なゲームの仮定からセキュリティの脆弱性を露呈する。
論文 参考訳(メタデータ) (2024-06-24T20:01:43Z) - Distributional Adversarial Loss [15.258476329309044]
本研究では,分散対向損失と呼ばれる新たな対向損失の概念について検討する。
目標は、全体的な敵の損失を最小限にすることである。
対向的損失という概念に対して,PAC学習環境におけるサンプルの複雑性境界を示す。
論文 参考訳(メタデータ) (2024-06-05T17:03:47Z) - Randomized Confidence Bounds for Stochastic Partial Monitoring [8.649322557020666]
部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。
文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。
決定論的信頼境界のランダム化に基づく新しいPM戦略のクラスを導入する。
論文 参考訳(メタデータ) (2024-02-07T16:18:59Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Deceptive Planning for Resource Allocation [29.673067819076515]
我々は、敵の環境をナビゲートする自律エージェントのチームが、目標とする場所のセットにリソースを割り当てることで、タスクを達成することを目指している。
環境の敵は、自律的なチームの振る舞いを観察し、その目的を推測し、チームに対して反応する。
敵を欺くことができるように自律チームの密度を制御するための戦略を提案する。
論文 参考訳(メタデータ) (2022-06-02T21:23:16Z) - Admissible Policy Teaching through Reward Design [32.39785256112934]
我々は、強化学習エージェントに報酬設計戦略を奨励し、許容可能な政策の集合から政策を採用するための報酬設計戦略について研究する。
報酬設計者の目標は、新たな報酬関数の下でのほぼ最適な決定的ポリシーが許容可能であることを保証しつつ、その基礎となる報酬関数をコスト効率良く修正することである。
論文 参考訳(メタデータ) (2022-01-06T18:49:57Z) - Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。
エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文 参考訳(メタデータ) (2021-06-07T10:35:52Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。