論文の概要: Less is More: Convergence Benefits of Fewer Data Weight Updates over Longer Horizon
- arxiv url: http://arxiv.org/abs/2602.19510v1
- Date: Mon, 23 Feb 2026 04:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.680661
- Title: Less is More: Convergence Benefits of Fewer Data Weight Updates over Longer Horizon
- Title(参考訳): より少ない値: より長い水平線上での少ないデータウェイトアップデートの収束効果
- Authors: Rudrajit Das, Neel Patel, Meisam Razaviyayn, Vahab Mirrokni,
- Abstract要約: 我々は、データ混合の収束挙動を有限個の内部ステップ$T$で解析する。
最適な$T$は$(log N)$ (resp., $((N log N)1/2)$)としてスケールし、完全なアクセスを伴うデータ混合の問題を示す。
- 参考スコア(独自算出の注目度): 42.1998022417145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data mixing--the strategic reweighting of training domains--is a critical component in training robust machine learning models. This problem is naturally formulated as a bilevel optimization task, where the outer loop optimizes domain weights to minimize validation loss, and the inner loop optimizes model parameters to minimize the weighted training loss. Classical bilevel optimization relies on hypergradients, which theoretically require the inner optimization to reach convergence. However, due to computational constraints, state-of-the-art methods use a finite, often small, number of inner update steps before updating the weights. The theoretical implications of this approximation are not well understood. In this work, we rigorously analyze the convergence behavior of data mixing with a finite number of inner steps $T$. We prove that the "greedy" practical approach of using $T=1$ can fail even in a simple quadratic example. Under a fixed parameter update budget $N$ and assuming the per-domain losses are strongly convex, we show that the optimal $T$ scales as $Θ(\log N)$ (resp., $Θ({(N \log N)}^{1/2})$) for the data mixing problem with access to full (resp., stochastic) gradients. We complement our theoretical results with proof-of-concept experiments.
- Abstract(参考訳): データミキシング — トレーニングドメインの戦略的再重み付け — は、堅牢な機械学習モデルのトレーニングにおいて重要なコンポーネントである。
この問題は二段階最適化タスクとして自然に定式化され、外ループはドメイン重みを最適化して検証損失を最小化し、内ループはモデルのパラメータを最適化して重み付きトレーニング損失を最小化する。
古典的な双レベル最適化は、収束に達するためには理論的には内部最適化を必要とする過次性に依存する。
しかし、計算上の制約のため、最先端の手法は重みを更新する前に、有限で、しばしば小さく、内部の更新ステップを多用する。
この近似の理論的意味はよく理解されていない。
本研究では、データ混合の収束挙動を有限個の内部ステップ$T$で厳密に解析する。
我々は、単純な二次的な例であっても、$T=1$を使用するという「欲求的」実践的アプローチが失敗することを示した。
固定パラメータ更新予算$N$で、ドメイン単位の損失が強く凸していると仮定すると、最適な$T$は$(\log N)$ (resp)となる。
完全(相対的、確率的)勾配へのアクセスを伴うデータ混合問題に対して、$({(N \log N)}^{1/2})$)。
理論結果を概念実証実験で補完する。
関連論文リスト
- Accelerated Stochastic Min-Max Optimization Based on Bias-corrected Momentum [30.01198677588252]
1次アルゴリズムは、$varepsilon-stationary pointを見つけるのに少なくとも$mathcalO(varepsilonepsilon-4)$ complexityを必要とする。
本稿では,高効率な変動複雑性を生かした新しい運動量アルゴリズムを提案する。
本手法の有効性は実世界のデータセットを用いてロジスティック回帰を用いて検証する。
論文 参考訳(メタデータ) (2024-06-18T20:14:52Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Lower Generalization Bounds for GD and SGD in Smooth Stochastic Convex
Optimization [9.019243171993553]
トレーニングステップ$T$とStep-size$eta$は、滑らかな凸最適化(SCO)問題の認定に影響を与える可能性がある。
まず、グラディエントDescent(GD)とグラディエントDescent(SGD)の厳密な過剰リスク低境界を提供する。
近年の作業は、より良い速度で達成できるが、トレーニング時間が長い場合には改善が減少する。
論文 参考訳(メタデータ) (2023-03-19T20:24:33Z) - Under-bagging Nearest Neighbors for Imbalanced Classification [63.026765294759876]
我々は,不均衡な分類問題に対して,textitunder-bagging $k$-NN (textitunder-bagging $k$-NN) というアンサンブル学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-01T14:10:38Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Convergence of Meta-Learning with Task-Specific Adaptation over Partial
Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。
本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2020-06-16T19:57:48Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。