Fugu-MT 論文翻訳(概要): Efficient Uncoupled Learning Dynamics with $\tilde{O}\!\left(T^{-1/4}\right)$ Last-Iterate Convergence in Bilinear Saddle-Point Problems over Convex Sets under Bandit Feedback

論文の概要: Efficient Uncoupled Learning Dynamics with $\tilde{O}\!\left(T^{-1/4}\right)$ Last-Iterate Convergence in Bilinear Saddle-Point Problems over Convex Sets under Bandit Feedback

arxiv url: http://arxiv.org/abs/2602.21436v1
Date: Tue, 24 Feb 2026 23:27:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.640253
Title: Efficient Uncoupled Learning Dynamics with $\tilde{O}\!\left(T^{-1/4}\right)$ Last-Iterate Convergence in Bilinear Saddle-Point Problems over Convex Sets under Bandit Feedback
Title（参考訳）: 帯域フィードバック下の凸集合上の双線形サドル問題における最終Iterate Convergence$\tilde{O}\!\left(T^{-1/4}\right)$Last-Iterate Convergenceを用いた効率的なアンカップリング学習ダイナミクス
Authors: Arnab Maiti, Claire Jie Zhang, Kevin Jamieson, Jamie Heather Morgenstern, Ioannis Panageas, Lillian J. Ratliff,
Abstract要約: 両線形サドル点問題における学習アルゴリズムの終点収束について検討する。我々の主な貢献は、非結合学習アルゴリズムの設計であり、高い確率でナッシュ平衡への最終点収束を保証する。
参考スコア（独自算出の注目度）: 25.081005025442835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study last-iterate convergence of learning algorithms in bilinear saddle-point problems, a preferable notion of convergence that captures the day-to-day behavior of learning dynamics. We focus on the challenging setting where players select actions from compact convex sets and receive only bandit feedback. Our main contribution is the design of an uncoupled learning algorithm that guarantees last-iterate convergence to the Nash equilibrium with high probability. We establish a convergence rate of $\tilde{O}(T^{-1/4})$ up to polynomial factors in problem parameters. Crucially, our proposed algorithm is computationally efficient, requiring only an efficient linear optimization oracle over the players' compact action sets. The algorithm is obtained by combining techniques from experimental design and the classic Follow-The-Regularized-Leader (FTRL) framework, with a carefully chosen regularizer function tailored to the geometry of the action set of each learner.
Abstract（参考訳）: 本稿では,学習力学の日々の振る舞いを捉えた収束概念である,双線形サドル点問題における学習アルゴリズムの終点収束について検討する。我々は,コンパクトな凸集合からアクションを選択し,帯域幅フィードバックのみを受信する,困難な設定に焦点をあてる。我々の主な貢献は、非結合学習アルゴリズムの設計であり、高い確率でナッシュ平衡への最終点収束を保証する。問題パラメータの多項式係数までの収束率を$\tilde{O}(T^{-1/4})$とする。重要なことは、提案アルゴリズムは計算的に効率的であり、プレイヤーのコンパクトなアクションセットよりも効率的な線形最適化オラクルしか必要としない。このアルゴリズムは、実験設計と古典的なFTRL(Follow-The-Regularized-Leader)フレームワークを、各学習者の行動集合の幾何学に合わせて慎重に選択された正規化関数と組み合わせて得られる。

関連論文リスト

A Near-Optimal Single-Loop Stochastic Algorithm for Convex Finite-Sum Coupled Compositional Optimization [53.14532968909759]
ALEXRと呼ばれる,効率的な単ループプリマル・デュアルブロック座標アルゴリズムを提案する。本研究では, ALEXR の凸面および強凸面の収束速度を滑らか性および非滑らか性条件下で確立する。 CFCCO の ROC 曲線の下での GDRO および部分領域の実験結果から,提案アルゴリズムの有望な性能を示す。
論文参考訳（メタデータ） (2023-12-04T19:00:07Z)
Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文参考訳（メタデータ） (2023-10-21T18:38:13Z)
Learning Zero-Sum Linear Quadratic Games with Improved Sample Complexity and Last-Iterate Convergence [18.1055795175092]
Zero-sum Linear Quadratic (LQ) ゲームは最適制御の基本である。本研究では,より単純な入れ子ゼロ階法 (NPG) アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-08T11:47:31Z)
Strictly Low Rank Constraint Optimization -- An Asymptotically $\mathcal{O}(\rac{1}{t^2})$ Method [5.770309971945476]
最適解における空間性を促進するために,テキスト規則化を用いた非テキスト・非滑らかな問題のクラスを提案する。我々のアルゴリズムは、滑らかな凸問題に対する一階法に対するネステロフの最適収束と全く同じ$Ofrac(t2)$の特異収束を達成することができることを示す。
論文参考訳（メタデータ） (2023-07-04T16:55:41Z)
Linearization Algorithms for Fully Composite Optimization [61.20539085730636]
本稿では,完全合成最適化問題を凸コンパクト集合で解くための一階アルゴリズムについて検討する。微分可能および非微分可能を別々に扱い、滑らかな部分のみを線形化することで目的の構造を利用する。
論文参考訳（メタデータ） (2023-02-24T18:41:48Z)
Accelerated First-Order Optimization under Nonlinear Constraints [61.98523595657983]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文参考訳（メタデータ） (2023-02-01T08:50:48Z)
Efficient and Optimal Algorithms for Contextual Dueling Bandits under Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文参考訳（メタデータ） (2021-11-24T07:14:57Z)
Optimal and Efficient Dynamic Regret Algorithms for Non-Stationary Dueling Bandits [27.279654173896372]
我々は,非定常的あるいは時間的に異なる選好の下で,$K$のDueling Banditsにおける空力的後悔の最小化問題について検討した。これは、エージェントが各ラウンドで一対のアイテムを選択し、このペアに対する相対的な二項のウィンロスフィードバックのみを観察するオンライン学習設定である。
論文参考訳（メタデータ） (2021-11-06T16:46:55Z)
Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文参考訳（メタデータ） (2021-06-02T22:03:36Z)
Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文参考訳（メタデータ） (2021-04-12T13:13:34Z)
Efficient Projection-Free Algorithms for Saddle Point Problems [39.88460595129901]
複雑な制約を伴う凸凸凸凹点問題に対するプロジェクションフリーアルゴリズムについて検討する。条件勾配スライディングとMirror-Proxを組み合わせることで、バッチ設定で$tildeO (1/sqrtepsilon)$評価と$tildeO (1/epsilon2)$線形最適化しか必要としないことを示す。
論文参考訳（メタデータ） (2020-10-21T15:05:53Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Provably Convergent Working Set Algorithm for Non-Convex Regularized Regression [0.0]
本稿では、収束保証付き非正則正規化器のためのワーキングセットアルゴリズムを提案する。その結果,ブロックコーディネートや勾配ソルバの完全解法と比較して高い利得を示した。
論文参考訳（メタデータ） (2020-06-24T07:40:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。