論文の概要: On the Exploitability of FTRL Dynamics
- arxiv url: http://arxiv.org/abs/2604.05129v1
- Date: Mon, 06 Apr 2026 19:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.467431
- Title: On the Exploitability of FTRL Dynamics
- Title(参考訳): FTRLダイナミクスの爆発性について
- Authors: Yiheng Su, Emmanouil-Vasileios Vlatakis-Gkaragkounis,
- Abstract要約: 我々は、利用性は特定のインスタンス化の成果物ではなく、Follow-the-Regularized-Leaderファミリーの本質的な特徴であることを示した。
我々の分析では、急激な二分法が再び明らかとなり、非ステッピング正則化器は、有限時間的最適動作の除去による最大余剰を許容するが、一方、急激な正解法は、搾取を遅らせる可能性がある。
- 参考スコア(独自算出の注目度): 3.072746147114436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we investigate the exploitability of a Follow-the-Regularized-Leader (FTRL) learner with constant step size $η$ in $n\times m$ two-player zero-sum games played over $T$ rounds against a clairvoyant optimizer. In contrast with prior analysis, we show that exploitability is an inherent feature of the FTRL family, rather than an artifact of specific instantiations. First, for fixed optimizer, we establish a sweeping law of order $Ω(N/η)$, proving that exploitation scales to the number of the learner's suboptimal actions $N$ and vanishes in their absence. Second, for alternating optimizer, a surplus of $Ω(ηT/\mathrm{poly}(n,m))$ can be guaranteed regardless of the equilibrium structure, with high probability, in random games. Our analysis uncovers once more the sharp geometric dichotomy: non-steep regularizers allow the optimizer to extract maximum surplus via finite-time elimination of suboptimal actions, whereas steep ones introduce a vanishing correction that may delay exploitation. Finally, we discuss whether this leverage persists under bilateral payoff uncertainty and we propose susceptibility measure to quantify which regularizers are most vulnerable to strategic manipulation.
- Abstract(参考訳): 本稿では,FTRL学習者に対して,一定のステップサイズで$η$ in $n\times m$ 2-player 0-sumゲームがT$ラウンドでプレイされる場合,その利用可能性について検討する。
先行分析とは対照的に, 利用性は特定のインスタンス化の成果物ではなく, FTRLファミリー固有の特徴であることを示す。
まず、固定オプティマイザに対して、次数$Ω(N/η)$のスイーリング法を確立し、この法則を学習者の準最適アクション数に拡大し、不在時に消滅することを示す。
第二に、交代オプティマイザに対しては、ランダムゲームにおいて、平衡構造にかかわらず$Ω(ηT/\mathrm{poly}(n,m))$の余剰を保証できる。
非ステッピング正則化器は、最適化器が最適動作の有限時間除去によって最大余剰量を抽出できるのに対し、急激な処理では悪用が遅れる可能性がある。
最後に、このレバレッジが双方向のペイオフの不確実性の下で持続するかどうかを議論し、戦略的な操作に対して最も脆弱な正規化器を定量化するための感受性尺度を提案する。
関連論文リスト
- Optimal Rates in Continual Linear Regression via Increasing Regularization [39.30412893918111]
本研究では,ランダムなタスク順序付けの下での連続線形回帰について検討する。
この設定では、$k$学習後の最悪の損失は、$Omega (1/k)$の低いバウンドを認める。
明示的等方的$ell$正則化と有限ステップ予算による暗黙的正則化という2つのよく使われる正則化スキームを用いる。
論文 参考訳(メタデータ) (2025-06-06T19:51:14Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Safe Linear Bandits over Unknown Polytopes [39.177982674455784]
安全線形バンディット問題(英: safe linear bandit problem、SLB)は、線形プログラミングのオンライン手法である。
ポリトープ上でのSLBの有効性とスムーズな安全性のトレードオフについて検討した。
論文 参考訳(メタデータ) (2022-09-27T21:13:32Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。