論文の概要: Inverse-Inverse Reinforcement Learning. How to Hide Strategy from an
Adversarial Inverse Reinforcement Learner
- arxiv url: http://arxiv.org/abs/2205.10802v1
- Date: Sun, 22 May 2022 11:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 19:49:27.939435
- Title: Inverse-Inverse Reinforcement Learning. How to Hide Strategy from an
Adversarial Inverse Reinforcement Learner
- Title(参考訳): 逆強化学習。
敵の逆強化学習者から戦略を隠す方法
- Authors: Kunal Pattanayak and Vikram Krishnamurthy and Christopher Berry
- Abstract要約: 逆強化学習は、エージェントの効用関数をその動作から推定する。
我々は,エージェントがその戦略を隠蔽し,敵のIRL攻撃を緩和する方法について考察する。
- 参考スコア(独自算出の注目度): 19.044614610714856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) deals with estimating an agent's utility
function from its actions. In this paper, we consider how an agent can hide its
strategy and mitigate an adversarial IRL attack; we call this inverse IRL
(I-IRL). How should the decision maker choose its response to ensure a poor
reconstruction of its strategy by an adversary performing IRL to estimate the
agent's strategy? This paper comprises four results: First, we present an
adversarial IRL algorithm that estimates the agent's strategy while controlling
the agent's utility function. Our second result for I-IRL result spoofs the IRL
algorithm used by the adversary. Our I-IRL results are based on revealed
preference theory in micro-economics. The key idea is for the agent to
deliberately choose sub-optimal responses that sufficiently masks its true
strategy. Third, we give a sample complexity result for our main I-IRL result
when the agent has noisy estimates of the adversary specified utility function.
Finally, we illustrate our I-IRL scheme in a radar problem where a
meta-cognitive radar is trying to mitigate an adversarial target.
- Abstract(参考訳): 逆強化学習(IRL)は、エージェントの実用機能をその動作から推定する。
本稿では、エージェントがその戦略を隠蔽し、敵のIRL攻撃を緩和する方法について考察し、これを逆IRL(I-IRL)と呼ぶ。
エージェントの戦略を見積もるためにIRLを行う敵による戦略の貧弱な再構築を確保するために、意思決定者はどのように対応するか。
まず,エージェントの効用関数を制御しながらエージェントの戦略を推定する逆irlアルゴリズムを提案する。
I-IRL結果に対する2つ目の結果は、敵が使用するIRLアルゴリズムをスプープする。
我々のI-IRL結果は、ミクロ経済学における明らかな嗜好理論に基づいている。
鍵となるアイデアは、エージェントが故意に、その真の戦略を十分に隠蔽する準最適応答を選択することである。
第3に, エージェントが敵特定ユーティリティ関数のノイズ推定値を持つ場合, 主i-irl結果のサンプル複雑性結果を与える。
最後に、メタ認知レーダーが対向目標を緩和しようとしているレーダ問題において、我々のI-IRLスキームを説明する。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Strategic Apple Tasting [35.25249063553063]
ハイテイク領域におけるアルゴリズムによる意思決定は、しばしばアルゴリズムへの入力を戦略的に修正するインセンティブを持つエージェントに決定を割り当てる。
我々は、この設定をリンゴ味のフィードバックによるオンライン学習問題として定式化する。
我々の目標は、プリンシパルのパフォーマンスを後見の最良の固定政策のパフォーマンスと比較する、サブリニアな戦略的後悔を達成することです。
論文 参考訳(メタデータ) (2023-06-09T20:46:31Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Inverse Reinforcement Learning for Strategy Identification [2.6572330982240935]
敵対的環境では、一方が相手の戦略を特定することで有利になる。
本稿では、逆強化学習(IRL)を用いて、敵環境における戦略を特定することを提案する。
論文 参考訳(メタデータ) (2021-07-31T17:22:52Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。