Fugu-MT 論文翻訳(概要): Prediction with Corrupted Expert Advice

論文の概要: Prediction with Corrupted Expert Advice

arxiv url: http://arxiv.org/abs/2002.10286v2
Date: Tue, 20 Oct 2020 20:17:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-29 03:12:27.661054
Title: Prediction with Corrupted Expert Advice
Title（参考訳）: 専門家アドバイザの故障予測
Authors: Idan Amir, Idan Attias, Tomer Koren, Roi Livni, Yishay Mansour
Abstract要約: ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
参考スコア（独自算出の注目度）: 67.67399390910381
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We revisit the fundamental problem of prediction with expert advice, in a setting where the environment is benign and generates losses stochastically, but the feedback observed by the learner is subject to a moderate adversarial corruption. We prove that a variant of the classical Multiplicative Weights algorithm with decreasing step sizes achieves constant regret in this setting and performs optimally in a wide range of environments, regardless of the magnitude of the injected corruption. Our results reveal a surprising disparity between the often comparable Follow the Regularized Leader (FTRL) and Online Mirror Descent (OMD) frameworks: we show that for experts in the corrupted stochastic regime, the regret performance of OMD is in fact strictly inferior to that of FTRL.
Abstract（参考訳）: 我々は, 環境が良性であり, 確率的に損失を発生させる環境において, 予測の基本的な問題を専門家のアドバイスで再検討するが, 学習者が観察するフィードバックは, 適度な敵の腐敗の対象となる。ステップサイズを小さくした古典的乗法重みアルゴリズムの変種は、この設定において絶え間なく後悔し、注入された汚職の大きさに関わらず、広範囲の環境において最適に動作することを示す。今回の結果から,正規化リーダ (ftrl) とオンラインミラー降ろし (omd) のフレームワークによく匹敵する違いが明らかとなった。

関連論文リスト

Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
The Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本稿では,不完全な情報形式ゲームにおいて,摂動がFTRL(Follow-the-Regularized-Leader)アルゴリズムをどのように改善するかを検討する。期待されるペイオフの摂動は、FTRL力学が近似平衡に達することを保証している。最後に、FTRLは非サンプリングFTRLよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-01-28T00:29:38Z)
On Calibration in Multi-Distribution Learning [6.184670046923719]
マルチディストリビューション学習(MDL)の校正特性について検討する。まず、MDLのベイズ最適規則を導出し、関連する損失関数の一般化エントロピーを最大化することを示した。解析の結果,本手法は最小の最悪の損失を許容するが,複数の分布に一様でないキャリブレーション誤差を生じさせる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-18T18:41:40Z)
Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning [0.19418036471925312]
深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。我々のフレームワークは、高次モーメント、特にカルトーシスを付加することにより、エラー分散モデリングの柔軟性を向上させる。
論文参考訳（メタデータ） (2024-08-05T08:12:25Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Robust Generalization against Photon-Limited Corruptions via Worst-Case Sharpness Minimization [89.92932924515324]
ロバスト一般化は、トレーニングセットで稀であり、厳しいノイズを含む最も困難なデータ分散に取り組むことを目的としている。分散ロバスト最適化(DRO)のような一般的なソリューションは、低いトレーニングエラーを保証するための最悪の経験的リスクに焦点を当てている。本稿では,学習パラメータの近傍における損失変化を計測し,最悪ケース分布の鋭さをペナルティ化し,シャープDROを提案する。シャープDROは、汚職に対する強力な一般化能力を示し、高い性能向上を有するよく知られたベースライン法を超えることを示す。
論文参考訳（メタデータ） (2023-03-23T07:58:48Z)
Your Policy Regularizer is Secretly an Adversary [13.625408555732752]
報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。我々は、KLとα偏差正規化の下で、この頑健な対向報酬摂動を特徴付ける。本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
論文参考訳（メタデータ） (2022-03-23T17:54:20Z)
Contrastive Learning for Debiased Candidate Generation in Large-Scale Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。我々はCLRecをさらに改良し、マルチCLRecを提案する。提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文参考訳（メタデータ） (2020-05-20T08:15:23Z)
Understanding and Mitigating the Tradeoff Between Robustness and Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文参考訳（メタデータ） (2020-02-25T08:03:01Z)
Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文参考訳（メタデータ） (2019-11-20T03:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。