論文の概要: Toward Optimal Adversarial Policies in the Multiplicative Learning
System with a Malicious Expert
- arxiv url: http://arxiv.org/abs/2001.00543v2
- Date: Fri, 18 Sep 2020 02:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:03:13.748916
- Title: Toward Optimal Adversarial Policies in the Multiplicative Learning
System with a Malicious Expert
- Title(参考訳): 悪意のある専門家による乗法学習システムにおける最適逆政策に向けて
- Authors: S. Rasoul Etesami, Negar Kiyavash, Vincent Leon, H. Vincent Poor
- Abstract要約: 専門家のアドバイスを組み合わせて真の結果を予測する学習システムについて考察する。
専門家の一人が悪意があり、システムに最大損失を課すことを目指していると推測されている。
誤予測を常に報告する単純な欲求ポリシーは、近似比が1+O(sqrtfracln NN)$で最適であることを示す。
悪意のある専門家がその判断を適応的に行うことができるオンライン環境では、最適のオンラインポリシーを$O(N3)$で動的プログラムを解くことで効率的に計算できることが示される。
- 参考スコア(独自算出の注目度): 87.12201611818698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a learning system based on the conventional multiplicative weight
(MW) rule that combines experts' advice to predict a sequence of true outcomes.
It is assumed that one of the experts is malicious and aims to impose the
maximum loss on the system. The loss of the system is naturally defined to be
the aggregate absolute difference between the sequence of predicted outcomes
and the true outcomes. We consider this problem under both offline and online
settings. In the offline setting where the malicious expert must choose its
entire sequence of decisions a priori, we show somewhat surprisingly that a
simple greedy policy of always reporting false prediction is asymptotically
optimal with an approximation ratio of $1+O(\sqrt{\frac{\ln N}{N}})$, where $N$
is the total number of prediction stages. In particular, we describe a policy
that closely resembles the structure of the optimal offline policy. For the
online setting where the malicious expert can adaptively make its decisions, we
show that the optimal online policy can be efficiently computed by solving a
dynamic program in $O(N^3)$. Our results provide a new direction for
vulnerability assessment of commonly used learning algorithms to adversarial
attacks where the threat is an integral part of the system.
- Abstract(参考訳): 本稿では,専門家のアドバイスを組み合わせて真の結果を予測する,従来の乗法重則に基づく学習システムについて考察する。
専門家の一人が悪意があり、システムに最大損失を課すことを目指していると推測されている。
システムの損失は、予測結果のシーケンスと真の結果との絶対的な差として自然に定義される。
この問題をオフラインとオンラインの両方の設定で検討する。
悪意のある専門家が決定の順序全体を優先的に選択しなければならないオフライン環境では、偽の予測を常に報告する単純な欲求ポリシーが1+O(\sqrt{\frac{\ln N}{N}})$の近似比で漸近的に最適であることを示す。
特に、最適なオフラインポリシーの構造によく似たポリシーについて述べる。
悪意のある専門家がその判断を適応的に行うことができるオンライン環境では、最適のオンラインポリシーを$O(N^3)$で動的プログラムを解くことで効率的に計算できることを示す。
本研究は,脅威がシステムの不可欠な部分である敵攻撃に対して,一般的な学習アルゴリズムの脆弱性評価のための新たな方向を提供する。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Online Policy Learning and Inference by Matrix Completion [12.527541242185404]
行列完備帯域(MCB)として問題を定式化する。
我々は、$epsilon$-greedy banditとオンライン勾配降下について検討する。
より早く崩壊する探索は、より少ない後悔をもたらすが、最適なポリシーをより正確に学習する。
論文 参考訳(メタデータ) (2024-04-26T13:19:27Z) - No-Regret Online Prediction with Strategic Experts [16.54912614895861]
オンラインバイナリ予測の一般化をエキスパートアドバイスフレームワークを用いて研究し、各ラウンドで、学習者は、Kドルの専門家のプールからmgeq 1ドルの専門家を選ぶことができる。
我々は、専門家が戦略的に行動し、彼らの信念を誤報することでアルゴリズムの予測への影響を最大化することを目的とした設定に焦点を当てる。
目標は,次の2つの要件を満たすアルゴリズムを設計することです。 1) $textitIncentive-compatible$: 専門家に信念を真実に報告させるインセンティブ,2) $textitNo-regret$: Achieve。
論文 参考訳(メタデータ) (2023-05-24T16:43:21Z) - Streaming Algorithms for Learning with Experts: Deterministic Versus
Robust [62.98860182111096]
エキスパート問題を伴うオンライン学習では、アルゴリズムは、T$day(または時間)ごとに結果を予測する必要がある。
目標は最小限のコストで予測を行うことだ。
最良専門家が$M$の誤りを犯したとき、後悔する$R$を達成するような決定論的アルゴリズムに対して、$widetildeOmegaleft(fracnMRTright)$の空間下界を示す。
論文 参考訳(メタデータ) (2023-03-03T04:39:53Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Optimal Tracking in Prediction with Expert Advice [0.0]
専門家のアドバイス設定を用いて予測を検証し、専門家の集合が生み出す決定を組み合わせて意思決定を行うことを目的とする。
我々は、専門家のアドバイス設定による予測の下で、最小限の動的後悔を達成する。
我々のアルゴリズムは、このような普遍的に最適で適応的で真にオンラインの保証を、事前の知識なしで生成した最初のアルゴリズムです。
論文 参考訳(メタデータ) (2022-08-07T12:29:54Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - Malicious Experts versus the multiplicative weights algorithm in online
prediction [85.62472761361107]
2人の専門家と1人の予測者による予測問題を考える。
専門家の一人が正直で、各ラウンドで確率$mu$で正しい予測をしていると仮定する。
もう一つは悪意のあるもので、各ラウンドで真の結果を知り、予測者の損失を最大化するために予測を行う。
論文 参考訳(メタデータ) (2020-03-18T20:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。