論文の概要: Data Selection for Fine-tuning Vision Language Models via Cross Modal Alignment Trajectories
- arxiv url: http://arxiv.org/abs/2510.01454v1
- Date: Wed, 01 Oct 2025 20:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.867724
- Title: Data Selection for Fine-tuning Vision Language Models via Cross Modal Alignment Trajectories
- Title(参考訳): クロスモーダルアライメント軌道を用いた微調整視覚言語モデルのデータ選択
- Authors: Nilay Naharas, Dang Nguyen, Nesihan Bulut, Mohammadhossein Bateni, Vahab Mirrokni, Baharan Mirzasoleiman,
- Abstract要約: 本稿では,LVLM(Large Vision-Language Models)のデータ効率向上のための第一原理的指導法を提案する。
XMASクラスタの例は、小さなプロキシLVLMを微調整して得られた注目行列の最高特異値の軌跡に基づいている。
XMASは10下流ベンチマークでLLaVA-1.5-7Bのパフォーマンスを維持しながら、LLaVA-665kデータセットの50%とVision-Flanデータセットの85%を破棄することができる。
- 参考スコア(独自算出の注目度): 45.580892667483674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-efficient learning aims to eliminate redundancy in large training datasets by training models on smaller subsets of the most informative examples. While data selection has been extensively explored for vision models and large language models (LLMs), it remains underexplored for Large Vision-Language Models (LVLMs). Notably, none of existing methods can outperform random selection at different subset sizes. In this work, we propose the first principled method for data-efficient instruction tuning of LVLMs. We prove that examples with similar cross-modal attention matrices during instruction tuning have similar gradients. Thus, they influence model parameters in a similar manner and convey the same information to the model during training. Building on this insight, we propose XMAS, which clusters examples based on the trajectories of the top singular values of their attention matrices obtained from fine-tuning a small proxy LVLM. By sampling a balanced subset from these clusters, XMAS effectively removes redundancy in large-scale LVLM training data. Extensive experiments show that XMAS can discard 50% of the LLaVA-665k dataset and 85% of the Vision-Flan dataset while fully preserving performance of LLaVA-1.5-7B on 10 downstream benchmarks and speeding up its training by 1.2x. This is 30% more data reduction compared to the best baseline for LLaVA-665k. The project's website can be found at https://bigml-cs-ucla.github.io/XMAS-project-page/.
- Abstract(参考訳): データ効率の学習は、最も有益な例の小さなサブセットでモデルをトレーニングすることで、大規模なトレーニングデータセットの冗長性をなくすことを目的としている。
データ選択は視覚モデルや大言語モデル (LLM) のために広く研究されてきたが、LVLM (Large Vision-Language Models) では未検討である。
特に、既存のどの手法も異なるサブセットサイズでランダム選択を上回りません。
本研究では,LVLMのデータ効率向上のための第1原理手法を提案する。
我々は、命令チューニング中に類似のモーダルな注意行列を持つ例が、同様の勾配を持つことを証明した。
このように、同様の方法でモデルパラメータに影響を与え、トレーニング中に同じ情報をモデルに伝達する。
この知見に基づいて、小さなプロキシLVLMの微調整から得られた注目行列の上位特異値の軌跡に基づいて、サンプルをクラスタリングするXMASを提案する。
これらのクラスタからバランスの取れたサブセットをサンプリングすることにより、XMASは大規模LVLMトレーニングデータの冗長性を効果的に除去する。
大規模な実験により、XMASは10の下流ベンチマークでLLaVA-1.5-7Bの性能を完全に保存し、トレーニングを1.2倍高速化しながら、LLaVA-665kデータセットの50%とVision-Flanデータセットの85%を破棄できることが示された。
これは、LLaVA-665kの最高のベースラインに比べて30%もデータ削減率が高い。
プロジェクトのWebサイトはhttps://bigml-cs-ucla.github.io/XMAS-project-page/にある。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。