論文の概要: Prediction against a limited adversary
- arxiv url: http://arxiv.org/abs/2011.01217v3
- Date: Mon, 1 Mar 2021 17:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 05:12:48.114393
- Title: Prediction against a limited adversary
- Title(参考訳): 限られた敵に対する予測
- Authors: Erhan Bayraktar and Ibrahim Ekren and Xin Zhang
- Abstract要約: 予測器と対戦相手間のゲームの価値関数の長期的挙動を特徴付ける。
後悔の記述によってゲームの制限行動が著しく異なることを示す。
- 参考スコア(独自算出の注目度): 8.277466108000203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of prediction with expert advice with adversarial
corruption where the adversary can at most corrupt one expert. Using tools from
viscosity theory, we characterize the long-time behavior of the value function
of the game between the forecaster and the adversary. We provide lower and
upper bounds for the growth rate of regret without relying on a comparison
result. We show that depending on the description of regret, the limiting
behavior of the game can significantly differ.
- Abstract(参考訳): 敵が少なくとも1人の専門家を腐敗させうる敵の腐敗に対する専門家の助言による予測の問題について検討する。
粘性理論のツールを用いて,予測器と敵の間のゲームの価値関数の長期的挙動を特徴付ける。
比較結果に頼らずに,後悔の増大率の上限を低く設定した。
後悔の記述によっては,ゲームの制限行動が著しく異なることが分かる。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Non-stochastic Bandits With Evolving Observations [47.61533665679308]
既存のモデルを統一し一般化する新しいオンライン学習フレームワークを導入する。
我々は,全情報設定と帯域幅設定の両方に対して,後悔の最小化アルゴリズムを提案する。
我々のアルゴリズムは、多くの特別なケースにまたがる既知の後悔境界と一致し、以前にも知られていない境界も導入する。
論文 参考訳(メタデータ) (2024-05-27T05:32:46Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - On Achieving Optimal Adversarial Test Error [22.80363013317207]
まず、最適対向予測器の様々な基本特性を解明する。
本研究では,一般的なデータ分布と摂動集合に対して,早期停止と最適対向性のある浅層ネットワーク上での対向トレーニングにより,最適対向テスト誤差を達成できることを証明した。
論文 参考訳(メタデータ) (2023-06-13T05:25:51Z) - On the Value of Stochastic Side Information in Online Learning [3.4788711710826083]
決定論的オンライン学習シナリオにおけるサイド情報の有効性について検討する。
特定の側面情報は予測者には提供できるが、専門家には提供されないと仮定する。
論文 参考訳(メタデータ) (2023-03-09T15:06:07Z) - Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。
本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文 参考訳(メタデータ) (2020-10-28T10:52:10Z) - Proper Network Interpretability Helps Adversarial Robustness in
Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。
我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。
その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-26T01:31:31Z) - Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文 参考訳(メタデータ) (2020-02-24T14:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。