Fugu-MT 論文翻訳(概要): OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance

論文の概要: OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance

arxiv url: http://arxiv.org/abs/2407.20761v1
Date: Tue, 30 Jul 2024 12:02:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 17:19:48.813344
Title: OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance
Title（参考訳）: OmniBal:Omniverse Computation Balanceによる視覚言語モデルの高速インストラクションチューニングに向けて
Authors: Yongqiang Yao, Jingru Tan, Jiahao Hu, Feizhao Zhang, Xin Jin, Bo Li, Ruihao Gong, Pengfei Liu,
Abstract要約: 視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
参考スコア（独自算出の注目度）: 35.40320275366383
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recently, vision-language instruct-tuning models have made significant progress due to their more comprehensive understanding of the world. In this work, we discovered that large-scale 3D parallel training on those models leads to an imbalanced computation load across different devices. The vision and language parts are inherently heterogeneous: their data distribution and model architecture differ significantly, which affects distributed training efficiency. We rebalanced the computational loads from data, model, and memory perspectives to address this issue, achieving more balanced computation across devices. These three components are not independent but are closely connected, forming an omniverse balanced training framework. Specifically, for the data, we grouped instances into new balanced mini-batches within and across devices. For the model, we employed a search-based method to achieve a more balanced partitioning. For memory optimization, we adaptively adjusted the re-computation strategy for each partition to utilize the available memory fully. We conducted extensive experiments to validate the effectiveness of our method. Compared with the open-source training code of InternVL-Chat, we significantly reduced GPU days, achieving about 1.8x speed-up. Our method's efficacy and generalizability were further demonstrated across various models and datasets. Codes will be released at https://github.com/ModelTC/OmniBal.
Abstract（参考訳）: 近年,視覚言語によるインストラクションチューニングモデルは,より包括的な世界理解のために大きな進歩を遂げている。本研究では,これらのモデルに対する大規模3次元並列トレーニングにより,異なるデバイス間での計算負荷が不均衡となることを発見した。データ分散とモデルアーキテクチャは大きく異なり、分散トレーニングの効率に影響を及ぼす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせ、デバイス間でよりバランスの取れた計算を実現しました。これら3つのコンポーネントは独立してはいないが、密接に結びついており、一対一のバランスの取れたトレーニングフレームワークを形成している。具体的には、データに対して、インスタンスをデバイス内およびデバイス間のバランスのとれた新しいミニバッチにグループ化しました。このモデルでは,よりバランスの取れたパーティショニングを実現するために,探索に基づく手法を用いた。メモリ最適化のために、各パーティションに対する再計算戦略を適応的に調整し、利用可能なメモリを完全に活用した。提案手法の有効性を検証するため, 広範囲な実験を行った。 InternVL-Chatのオープンソーストレーニングコードと比較して、GPUの日数は大幅に減少し、約1.8倍のスピードアップを実現しました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。コードはhttps://github.com/ModelTC/OmniBal.comでリリースされる。

関連論文リスト

Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文参考訳（メタデータ） (2026-02-05T15:45:08Z)
Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文参考訳（メタデータ） (2025-08-20T17:54:21Z)
Does equivariance matter at scale? [15.247352029530523]
我々は、等変ネットワークと非等変ネットワークが、計算およびトレーニングサンプルでどのようにスケールするかを研究する。まず、等分散によりデータ効率が向上するが、データ拡張による非同変モデルのトレーニングは、十分なエポックを考慮すれば、このギャップを埋めることができる。第二に、計算によるスケーリングは、テストされた各計算予算において、同変モデルが非同変モデルよりも優れたパワー則に従う。
論文参考訳（メタデータ） (2024-10-30T16:36:59Z)
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文参考訳（メタデータ） (2024-05-28T17:33:54Z)
Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文参考訳（メタデータ） (2024-03-17T13:06:29Z)
A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文参考訳（メタデータ） (2023-11-03T17:29:46Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文参考訳（メタデータ） (2023-03-24T17:56:22Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文参考訳（メタデータ） (2022-09-29T08:16:52Z)
Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文参考訳（メタデータ） (2022-07-13T09:43:17Z)
Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文参考訳（メタデータ） (2022-02-07T05:11:01Z)
Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文参考訳（メタデータ） (2020-04-28T07:13:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。