論文の概要: Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach
- arxiv url: http://arxiv.org/abs/2104.04886v1
- Date: Sun, 11 Apr 2021 00:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:38:37.661197
- Title: Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach
- Title(参考訳): stackelbergゲームとしての敵対的トレーニング:未ロール最適化アプローチ
- Authors: Simiao Zuo, Chen Liang, Haoming Jiang, Xiaodong Liu, Pengcheng He,
Jianfeng Gao, Weizhu Chen, Tuo Zhao
- Abstract要約: 逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
- 参考スコア(独自算出の注目度): 91.74682538906691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training has been shown to improve the generalization performance
of deep learning models in various natural language processing tasks. Existing
works usually formulate adversarial training as a zero-sum game, which is
solved by alternating gradient descent/ascent algorithms. Such a formulation
treats the adversarial and the defending players equally, which is undesirable
because only the defending player contributes to the generalization
performance. To address this issue, we propose Stackelberg Adversarial Training
(SALT), which formulates adversarial training as a Stackelberg game. This
formulation induces a competition between a leader and a follower, where the
follower generates perturbations, and the leader trains the model subject to
the perturbations. Different from conventional adversarial training, in SALT,
the leader is in an advantageous position. When the leader moves, it recognizes
the strategy of the follower and takes the anticipated follower's outcomes into
consideration. Such a leader's advantage enables us to improve the model
fitting to the unperturbed data. The leader's strategic information is captured
by the Stackelberg gradient, which is obtained using an unrolling algorithm.
Our experimental results on a set of machine translation and natural language
understanding tasks show that SALT outperforms existing adversarial training
baselines across all tasks.
- Abstract(参考訳): 各種自然言語処理タスクにおけるディープラーニングモデルの一般化性能を向上させるために, 対角訓練を行った。
既存の作品は通常、逆行訓練をゼロサムゲームとして定式化し、勾配降下/上昇アルゴリズムを交互に解く。
このような定式化は、敵プレイヤーと守備プレイヤーを等しく扱うが、防御プレイヤーだけが一般化性能に寄与するので望ましくない。
そこで我々は,Stackelberg Adversarial Training (SALT, Stackelberg Adversarial Training)を提案する。
この定式化は、リーダーと従者の間の競争を誘導し、従者は摂動を生成し、リーダーは摂動の対象となるモデルを訓練する。
従来の敵の訓練とは異なり、SALTでは、リーダーは有利な立場にある。
リーダーが移動すると、フォロワーの戦略を認識し、期待されたフォロワーの結果を考慮に入れます。
このようなリーダーの利点は、未成熟のデータに適合するモデルを改善することを可能にします。
リーダーの戦略情報は、展開アルゴリズムを用いて得られるstackelberg勾配によって取得される。
機械翻訳と自然言語理解タスクのセットに関する実験結果から,SALTは既存の対人訓練のベースラインを全タスクで上回っていることが示された。
関連論文リスト
- Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - When Should a Leader Act Suboptimally? The Role of Inferability in Repeated Stackelberg Games [28.856644679990357]
我々は、リーダーとフォロワーが繰り返し対話する観察結果を用いて、Stackelbergゲームを用いて、推論可能性の問題をモデル化する。
様々なゲーム設定において、不確実性ギャップは、リーダーの戦略の相互作用数とセマンティレベルの関数によって上限づけられていることが示される。
リーダーの準最適戦略が大きな不確実性ギャップに悩まされるような一連のゲームを特定する。
論文 参考訳(メタデータ) (2023-09-30T19:08:05Z) - Active Inverse Learning in Stackelberg Trajectory Games [32.663862342494745]
リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化する。
本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を最もよく記述しているかを推定する,リーダーの能動的逆学習法を提案する。
論文 参考訳(メタデータ) (2023-08-15T20:17:26Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Self-Training with Differentiable Teacher [80.62757989797095]
自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。
この手法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。
そこで我々は,教師学生をStackelbergゲームとして扱う,差別化可能な自己学習法を提案する。
論文 参考訳(メタデータ) (2021-09-15T02:06:13Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。