論文の概要: Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning
- arxiv url: http://arxiv.org/abs/2603.12478v1
- Date: Thu, 12 Mar 2026 21:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.779806
- Title: Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning
- Title(参考訳): より少ないデータ、より高速な収束:マルチモーダルインストラクションチューニングのためのゴール駆動データ最適化
- Authors: Rujie Wu, Haozhe Zhao, Hai Ci, Yizhou Wang,
- Abstract要約: それぞれの候補に対して6つのサンプル記述子を計算し、異なる目標に対して1$times$トレーニングサブセットを最適化するフレームワークを提案する。
固定されたQwen3-VL-8B-インストラクショントレーニングと評価のレシピの下で、GDOはUni-10xベースラインよりもはるかに少ないトレーニングサンプルを使用する。
固定された512kサンプルのUni-10xベースラインとは対照的に、GDOはMVBenchの35.4kサンプル、VideoMMEの26.6k、MLVUの27.3k、LVBenchの34.7kサンプルの後、Uni-10x基準に達する。
- 参考スコア(独自算出の注目度): 19.797488880602813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal instruction tuning is often compute-inefficient because training budgets are spread across large mixed image-video pools whose utility is highly uneven. We present Goal-Driven Data Optimization (GDO), a framework that computes six sample descriptors for each candidate and constructs optimized 1$\times$ training subsets for different goals. Under a fixed one-epoch Qwen3-VL-8B-Instruct training and evaluation recipe on 8 H20 GPUs, GDO uses far fewer training samples than the Uni-10x baseline while converging faster and achieving higher accuracy. Relative to the fixed 512k-sample Uni-10x baseline, GDO reaches the Uni-10x reference after 35.4k samples on MVBench, 26.6k on VideoMME, 27.3k on MLVU, and 34.7k on LVBench, while improving Accuracy by +1.38, +1.67, +3.08, and +0.84 percentage points, respectively. The gains are largest on MVBench and MLVU, while LVBench improves more modestly, consistent with its ultra-long-video setting and the mismatch between that benchmark and the short-video/image-dominant training pool. Across MinLoss, Diverse, Temp, and Temp+, stronger temporal emphasis yields steadily better long-video understanding behavior. Overall, GDO provides a goal-driven data optimization framework that enables faster convergence with fewer training samples under a fixed training protocol. Code is available at https://github.com/rujiewu/GDO.
- Abstract(参考訳): マルチモーダル・インストラクション・チューニングはしばしば計算非効率であるが、これはトレーニング予算が大きな混合画像・ビデオプールに分散しているためである。
GDO(Goal-Driven Data Optimization)は、各候補に対して6つのサンプル記述子を計算し、異なる目標に対して1$\times$トレーニングサブセットを最適化するフレームワークである。
8 H20 GPU上でのQwen3-VL-8B-インストラクショントレーニングと評価のレシピの下では、GDOはUni-10xベースラインよりもはるかに少ないトレーニングサンプルを使用し、より高速に収束し、より高い精度を達成する。
固定された512kサンプルのUni-10xベースラインとは対照的に、GDOはMVBenchで35.4k、ビデオMMEで26.6k、MLVUで27.3k、LVBenchで34.7kとなり、精度は+1.38、+1.67、+3.08、+0.84ポイント向上した。
MVBenchとMLVUではゲインが大きく、LVBenchはより控えめに改善され、超長時間のビデオ設定とベンチマークと短いビデオ/画像/画像のトレーニングプールとのミスマッチとが一致している。
MinLoss、Diverse、Temp、Temp+をまたいで、時間的強調が強くなると、ビデオの理解行動が着実に改善する。
全体として、GDOは目標駆動型のデータ最適化フレームワークを提供し、固定トレーニングプロトコルの下で、より少ないトレーニングサンプルでより高速な収束を可能にする。
コードはhttps://github.com/rujiewu/GDO.comで入手できる。
関連論文リスト
- MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - FastGL: A GPU-Efficient Framework for Accelerating Sampling-Based GNN Training at Large Scale [29.272368697268433]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータに対して大きな優位性を示している。
我々は,大規模なGNNのサンプリングベーストレーニングを高速化するGPU効率のフレームワークであるFastGLを提案する。
FastGLは、最先端フレームワークであるPyG、DGL、GNNLabに対して平均11.8x、2.2x、1.5xのスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-09-23T11:45:47Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文 参考訳(メタデータ) (2024-02-04T11:12:17Z) - A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。
ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-10-22T21:38:57Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Scalable and Efficient Training of Large Convolutional Neural Networks
with Differential Privacy [10.098114696565865]
大規模畳み込みニューラルネットワーク(CNN)は、差分プライベート(DP)方式でトレーニングすることが困難である。
混合ゴーストクリッピングと呼ばれる畳み込み層におけるこのクリッピングの効率的かつスケーラブルな実装を提案する。
CIFAR10では96.7%、CIFAR100では83.0%の精度が$epsilon=1$でBEiTで達成され、前回の結果は94.8%と67.4%であった。
論文 参考訳(メタデータ) (2022-05-21T22:01:12Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。