論文の概要: BROS: Bias-Corrected Randomized Subspaces for Memory-Efficient Single-Loop Bilevel Optimization
- arxiv url: http://arxiv.org/abs/2605.10288v2
- Date: Tue, 12 May 2026 10:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.119286
- Title: BROS: Bias-Corrected Randomized Subspaces for Memory-Efficient Single-Loop Bilevel Optimization
- Title(参考訳): BROS: メモリ効率の良いシングルループバイレベル最適化のためのバイアス補正ランダム化部分空間
- Authors: Hengrui Zhang, Boao Kong, Engao Zhang, Kun Yuan,
- Abstract要約: BROSは単ループSBO法と同じ収束率のメモリ効率の高い単ループSBO法である。
ハイパーデータクリーニング、データ混合学習、ハイパー表現学習、ViTサンプル再重み付けの実験は、BROSがピークメモリを最大44.9%削減することを示している。
- 参考スコア(独自算出の注目度): 14.31334375610921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic bilevel optimization (SBO) has become a standard framework for hyperparameter learning, data reweighting, representation learning, and data-mixture optimization in deep learning. Existing exact single-loop SBO methods and memory-efficient surrogate SBO methods either create severe memory pressure for large lower-level neural networks or lack competitive convergence guarantees under standard assumptions. In this paper, we propose BROS, a memory-efficient single-loop SBO method with the same convergence rate order as exact single-loop SBO methods. BROS performs lower and auxiliary updates in randomized subspaces with a Rademacher bi-probe correction that recovers an unbiased Hessian-action estimator. We prove that BROS preserves the $\mathcal O(\varepsilon^{-2})$ sample complexity of MA-SOBA for finding an $\varepsilon$-stationary point under only standard assumptions. Experiments on hyper-data cleaning, data-mixture learning, hyper-representation learning, and ViT sample reweighting show that BROS reduces peak memory by up to 44.9% while closely matching full-space baseline performance.
- Abstract(参考訳): 確率的二段階最適化(SBO)は、ディープラーニングにおけるハイパーパラメータ学習、データ再重み付け、表現学習、データ混合最適化の標準フレームワークとなっている。
既存のシングルループSBO法とメモリ効率の低いSBO法は、大きな低レベルニューラルネットワークに対して厳しいメモリ圧力を発生させるか、あるいは標準的な仮定の下での競合収束保証を欠くかのいずれかである。
本稿では,メモリ効率の高い単一ループSBO法であるBROSを提案する。
BROSはランダム化された部分空間において低次および補助的な更新を行い、ラデマッハのバイプローブ補正により不偏なヘッセン作用推定器を復元する。
BROSが$\mathcal O(\varepsilon^{-2})$のMA-SOBAのサンプル複雑性を保ち、標準仮定のみの下で$\varepsilon$-定常点を求めることを証明している。
ハイパーデータクリーニング、データ混合学習、ハイパー表現学習、ViTサンプル再重み付けの実験では、BROSは最大44.9%のピークメモリを削減し、フルスペースのベースライン性能と密に一致している。
関連論文リスト
- Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Robust and Efficient Zeroth-Order LLM Fine-Tuning via Adaptive Bayesian Subspace Optimizer [4.6561758107970395]
ゼロオーダー (ZO) 最適化による微調整大型言語モデル (LLM) は,関数評価による勾配の近似によりメモリ削減を行う。
適応型textbfBayesian textbfSubspace textbfZeroth-Order textbfOptimizer について紹介する。
論文 参考訳(メタデータ) (2026-01-04T09:35:11Z) - Lean and Mean Adaptive Optimization via Subset-Norm and Subspace-Momentum with Convergence Guarantees [5.399838579600896]
本稿では,大規模ニューラルネットワークのトレーニングを高速化しながら,メモリ要求を低減し,効率的な最適化を実現するための2つの補完的補完手法を提案する。
最初のテクニックであるSubset-m Step sizeは、ステップサイズの共有を通じてAdaGrad-NormとAdaGrad(-Norm)を一般化する。
第2の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースにモーメントすることで削減する。
論文 参考訳(メタデータ) (2024-11-11T16:48:07Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Optimal Cross-Validation for Sparse Linear Regression [5.156484100374059]
線形回帰器のスパーシリティとロバスト性を選択するためにk-foldクロスバリデーションを用いる。
クロスバリデーションはスパース回帰の計算コストを大幅に増大させる。
混合整数最適化問題を50~80%削減することで、この状況を改善する。
論文 参考訳(メタデータ) (2023-06-26T17:02:45Z) - Deep Momentum Multi-Marginal Schr\"odinger Bridge [41.27274841596343]
本稿では,時間的限界制約を満たすシステムに対して,スムーズな測度値アルゴリズムを学習する新しいフレームワークを提案する。
我々のアルゴリズムは、合成データセットと実世界の単一細胞RNAデータセットシーケンスの実験によって証明されたように、ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-03-03T07:24:38Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。