Fugu-MT 論文翻訳(概要): ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting

論文の概要: ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting

arxiv url: http://arxiv.org/abs/2406.19976v1
Date: Fri, 28 Jun 2024 15:03:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 16:30:41.054069
Title: ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting
Title（参考訳）: ScaleBiO: LLMデータ再重み付けのためのスケーラブルなバイレベル最適化
Authors: Rui Pan, Jipeng Zhang, Xingyuan Pan, Renjie Pi, Xiaoyu Wang, Tong Zhang,
Abstract要約: バイレベル最適化は、さまざまな機械学習設定でその有用性を示している。 2段階最適化問題に効果的に対処できる一階アルゴリズムが登場した。本稿では,このパラダイムの最初のスケーラブルなインスタンス化であるScaleBiOを紹介する。
参考スコア（独自算出の注目度）: 28.050193059200534
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bilevel optimization has shown its utility across various machine learning settings, yet most algorithms in practice require second-order information, making it challenging to scale them up. Only recently, a paradigm of first-order algorithms emerged, capable of effectively addressing bilevel optimization problems. Nevertheless, the practical efficiency of this paradigm remains unverified, particularly in the context of large language models (LLMs). This paper introduces the first scalable instantiation of this paradigm called ScaleBiO, focusing on bilevel optimization for large-scale LLM data reweighting. By combining with a recently proposed memory-efficient training technique called LISA, our novel algorithm allows the paradigm to scale to 34-billion-parameter LLMs on eight A40 GPUs, marking the first successful application of bilevel optimization under practical scenarios for large-sized LLMs. Empirically, extensive experiments on data reweighting verify the effectiveness of ScaleBiO for different-scaled models, including GPT-2, LLaMA-3-8B, GPT-NeoX-20B, and Yi-34B, where bilevel optimization succeeds in filtering irrelevant data samples and selecting informative samples. Theoretically, ScaleBiO ensures the optimality of the learned data weights, along with a convergence guarantee matching the conventional first-order bilevel optimization paradigm on smooth and strongly convex objectives.
Abstract（参考訳）: バイレベル最適化はさまざまな機械学習設定で有効性を示しているが、実際にはほとんどのアルゴリズムは2次情報を必要とするため、スケールアップは困難である。つい最近になって、二段階最適化問題に効果的に対処できる一階アルゴリズムのパラダイムが出現した。しかしながら、このパラダイムの実用的効率性は、特に大規模言語モデル(LLM)の文脈において検証されていない。本稿では,大規模LLMデータ再重み付けのための2レベル最適化に着目した,このパラダイムのスケーラブルなインスタンス化について紹介する。 LISAと呼ばれる最近提案されたメモリ効率のトレーニング技術と組み合わせることで、我々の新しいアルゴリズムは8つのA40 GPU上で34ビリオンパラメトリックのLLMにスケールできる。 GPT-2, LLaMA-3-8B, GPT-NeoX-20B, Yi-34Bなど, 異なるスケールのモデルに対して, データ再重み付けに関する広範な実験によりScaleBiOの有効性が検証された。理論的には、ScaleBiOは学習したデータ重みの最適性を保証するとともに、スムーズで強凸な目的に対して従来の一階二階最適化パラダイムと一致する収束を保証する。

関連論文リスト

Highly Efficient and Effective LLMs with Multi-Boolean Architectures [1.4195677954898822]
大型言語モデル(LLM)の複雑さを劇的に減らすための有望な戦略として、重み二項化が登場した。本稿では,LLMをマルチカーネルブールパラメータに効果的に変換する新しいフレームワークを提案する。提案手法は,近年の超低ビット量子化法とバイナライゼーション法より優れている。
論文参考訳（メタデータ） (2025-05-28T19:40:34Z)
GOLLuM: Gaussian Process Optimized LLMs -- Reframing LLM Finetuning through Bayesian Optimization [0.4037357056611557]
大規模言語モデル(LLM)は、その潜在空間における複雑な関係を符号化することができる。 LLMベースのディープカーネルを導入し、GPと共同で最適化し、両方の利点を維持する。提案手法は, 静的LLM埋め込みと比較して, 高効率反応の発見率をほぼ2倍に向上させる。
論文参考訳（メタデータ） (2025-04-08T17:59:57Z)
Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。 L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文参考訳（メタデータ） (2025-03-14T14:48:12Z)
Provably Faster Algorithms for Bilevel Optimization via Without-Replacement Sampling [96.47086913559289]
勾配に基づくアルゴリズムはバイレベル最適化に広く用いられている。本研究では,より高速な収束率を実現する非置換サンプリングに基づくアルゴリズムを提案する。合成および実世界の両方のアプリケーションに対してアルゴリズムを検証する。
論文参考訳（メタデータ） (2024-11-07T17:05:31Z)
Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization [71.35604981129838]
従来の勾配に基づく二段階最適化アルゴリズムは、大規模アプリケーションの要求を満たすには不適である。両レベル最適化のためのメタ勾配の偏りのない近似を実現するための$(textFG)2textU$を導入する。 $(textFG)2textU$は本質的に並列コンピューティングをサポートするように設計されており、大規模分散コンピューティングシステムを効果的に活用することができる。
論文参考訳（メタデータ） (2024-06-20T08:21:52Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
Contextual Stochastic Bilevel Optimization [50.36775806399861]
文脈情報と上層変数の期待を最小化する2レベル最適化フレームワークCSBOを導入する。メタラーニング、パーソナライズドラーニング、エンド・ツー・エンドラーニング、Wassersteinはサイド情報(WDRO-SI)を分散的に最適化している。
論文参考訳（メタデータ） (2023-10-27T23:24:37Z)
BiSLS/SPS: Auto-tune Step Sizes for Stable Bi-level Optimization [33.082961718280245]
既存のアルゴリズムは、ハイパーグラディエントを計算する際に近似誤差の影響を受け得る2つの結合学習率を含んでいる。線形探索(SLS)とポリアクステップサイズ(SPS)という適応的なステップサイズ法を用いて,上層と下層の両方の学習率の計算を行う。 SGDとAdamの両バージョンで利用できる新しいアルゴリズムは、最小限のチューニングで大きな学習率を見つけ、対応するバニラBOアルゴリズムよりも高速に収束させることができる。
論文参考訳（メタデータ） (2023-05-30T00:37:50Z)
Fast Adaptive Federated Bilevel Optimization [14.579475552088692]
本稿では,分散二レベル最適化問題の解法として,適応型二レベル最適化アルゴリズム(AdaFBiO)を提案する。 AdaFBiOは、統一適応行列を用いて、様々な適応学習率を柔軟に組み込んで、ULおよびLL問題の変数を更新する。 AdaFBiOアルゴリズムの収束解析フレームワークを提供し、$tildeO(epsilon-3)$の複雑さと$tildeO(epsilon-2)$のコミュニケーション複雑さのサンプルが必要であることを証明した。
論文参考訳（メタデータ） (2022-11-02T13:55:47Z)
A Generic Descent Aggregation Framework for Gradient-based Bi-level Optimization [41.894281911990554]
両レベル学習タスクのための新しいBDA(Bi-level Descent Aggregation)フレームワークを開発した。 BDAは上層と下層の両方の階層的目的を集約する。従来の勾配に基づくbiレベル法の収束結果を改善するための新しい証明法を提案する。
論文参考訳（メタデータ） (2021-02-16T06:58:12Z)
A Generic First-Order Algorithmic Framework for Bi-Level Programming Beyond Lower-Level Singleton [49.23948907229656]
Bi-level Descent Aggregationは、汎用的な双方向最適化のためのフレキシブルでモジュール化されたアルゴリズムフレームワークである。 LLS条件なしでBDAの収束を証明する新しい手法を導出する。我々の研究は、BDAが特定の一階計算モジュールの検証と互換性があることも示している。
論文参考訳（メタデータ） (2020-06-07T05:18:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。