論文の概要: Adversarial Cheap Talk
- arxiv url: http://arxiv.org/abs/2211.11030v2
- Date: Thu, 15 Jun 2023 16:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 03:03:21.157988
- Title: Adversarial Cheap Talk
- Title(参考訳): 敵対的安価トーク
- Authors: Chris Lu, Timon Willi, Alistair Letcher, Jakob Foerster
- Abstract要約: 強化学習(RL)における敵対的攻撃は、しばしば被害者のパラメータ、環境、データへの高い特権的アクセスを前提としている。
本稿では,Cheap Talk MDP と呼ばれる新たな相手設定を提案する。
- 参考スコア(独自算出の注目度): 9.026945820010194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks in reinforcement learning (RL) often assume
highly-privileged access to the victim's parameters, environment, or data.
Instead, this paper proposes a novel adversarial setting called a Cheap Talk
MDP in which an Adversary can merely append deterministic messages to the
Victim's observation, resulting in a minimal range of influence. The Adversary
cannot occlude ground truth, influence underlying environment dynamics or
reward signals, introduce non-stationarity, add stochasticity, see the Victim's
actions, or access their parameters. Additionally, we present a simple
meta-learning algorithm called Adversarial Cheap Talk (ACT) to train
Adversaries in this setting. We demonstrate that an Adversary trained with ACT
still significantly influences the Victim's training and testing performance,
despite the highly constrained setting. Affecting train-time performance
reveals a new attack vector and provides insight into the success and failure
modes of existing RL algorithms. More specifically, we show that an ACT
Adversary is capable of harming performance by interfering with the learner's
function approximation, or instead helping the Victim's performance by
outputting useful features. Finally, we show that an ACT Adversary can
manipulate messages during train-time to directly and arbitrarily control the
Victim at test-time. Project video and code are available at
https://sites.google.com/view/adversarial-cheap-talk
- Abstract(参考訳): 強化学習(RL)における敵対的攻撃は、しばしば被害者のパラメータ、環境、データへの高い特権的アクセスを前提としている。
そこで本稿では,Victim の観察に決定論的メッセージを単に付加するだけで,最小限の影響が生じる,Cheap Talk MDP という新たな敵設定を提案する。
Adversaryは、根底にある環境力学や報奨信号の影響、非定常性の導入、確率性の追加、ヴィクティムの行動の確認、パラメータへのアクセスを防げない。
さらに,本手法では,adversarial cheap talk (act) と呼ばれる単純なメタ学習アルゴリズムを提案する。
我々は,行為を訓練した敵が,非常に制約された設定にもかかわらず,被害者の訓練やテスト性能に大きな影響を与えることを実証する。
列車時のパフォーマンスへの影響は、新たな攻撃ベクトルを明らかにし、既存のRLアルゴリズムの成功と失敗モードに関する洞察を提供する。
具体的には、ACT Adversaryは学習者の関数近似に干渉することで性能を損なうことができ、代わりに有用な機能を出力することで、Victimのパフォーマンスを支援することができることを示す。
最後に、ACT Adversaryが列車中のメッセージを操作して、テスト時にVictimを直接任意に制御できることを示す。
プロジェクトビデオとコードはhttps://sites.google.com/view/adversarial-cheap-talkで入手できる。
関連論文リスト
- Quantifying Privacy Risks of Prompts in Visual Prompt Learning [33.244695390157595]
視覚的プロンプト学習によって学習されたプロンプトの包括的プライバシー評価を行う。
私たちの経験的評価は、両方の攻撃に対してプロンプトが脆弱であることを示している。
本研究は, 解答に対するメンバシップ推論攻撃が, 相対的仮定を緩やかに仮定することで成功できることを示唆する。
論文 参考訳(メタデータ) (2023-10-18T13:51:27Z) - TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive
Learning [15.673602262069531]
アクティブ話者検出(英: Active Speaker Detection、ASD)とは、ある人が話しているか否かを一連のビデオフレームで判断するタスクである。
提案するTalkNCEは,新しい会話認識型コントラスト損失である。
提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Removing Adversarial Noise in Class Activation Feature Space [160.78488162713498]
クラスアクティベーション機能空間において,自己監視型対人訓練機構を実装することにより,対人雑音の除去を提案する。
クラスアクティベーション機能空間における敵対例と自然な例の間の距離を最小にするために、デノイジングモデルを訓練する。
経験的評価により, 従来の手法と比較して, 敵対的堅牢性が有意に向上できることが示された。
論文 参考訳(メタデータ) (2021-04-19T10:42:24Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。