論文の概要: DOSE: Data Selection for Multi-Modal LLMs via Off-the-Shelf Models
- arxiv url: http://arxiv.org/abs/2604.16979v1
- Date: Sat, 18 Apr 2026 12:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.270945
- Title: DOSE: Data Selection for Multi-Modal LLMs via Off-the-Shelf Models
- Title(参考訳): DOSE:オフザシェルフモデルによるマルチモーダルLCMのデータ選択
- Authors: Biao Wu, Yiwu Zhong, Meng Fang, Ling Chen,
- Abstract要約: 目標データを見たことのない市販の事前訓練モデルを用いて,タスク固有のトレーニングを伴わずに,より大規模で強力なマルチモーダルモデルのトレーニングサンプルを選択することができるかを検討する。
共同品質アライメント分布を構築し, 適応重み付きサンプリングを適用して, 長期の多様性を維持しつつ, 情報的サンプルを選択する。
このアプローチはデータの多様性を高め、DOSEでフィルタされたデータでトレーニングされたモデルが、標準のVQAおよび数学ベンチマークでトレーニングされたデータセットでトレーニングされたモデルと一致するか、あるいは超えるようにする。
- 参考スコア(独自算出の注目度): 43.094426671099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality and diverse multimodal data are essential for improving vision-language models (VLMs), yet existing datasets often contain noisy, redundant, and poorly aligned samples. To address these problems, data filtering is commonly used to enhance the efficiency and performance of multimodal learning, but it introduces extra computational cost because filtering models are usually trained on the same data they are meant to screen. To reduce this cost, we study DOSE, which explores whether off-the-shelf pretrained models that have never seen the target data can be used to select training samples for larger and stronger multimodal models without any task-specific training. Even without fine-tuning, these models can effectively assess text quality and image-text alignment to guide data selection. Based on this, we build a joint quality-alignment distribution and apply adaptive weighted sampling to select informative samples while maintaining long-tail diversity. This approach enhances data diversity, enabling models trained on DOSE-filtered data to match or surpass those trained on the full dataset on standard VQA and math benchmarks. Extensive experiments demonstrate its effectiveness, efficiency, and scalability.
- Abstract(参考訳): 高品質で多様なマルチモーダルデータは視覚言語モデル(VLM)の改善に不可欠であるが、既存のデータセットにはノイズ、冗長、整合性の悪いサンプルが含まれることが多い。
これらの問題に対処するために、データフィルタリングは、マルチモーダル学習の効率と性能を高めるために一般的に使用されるが、フィルタリングモデルが通常、スクリーニングされる同じデータに基づいて訓練されるため、計算コストが増大する。
このコストを削減するために,本研究では,目標データを見たことのない市販の事前訓練モデルを用いて,タスク固有のトレーニングを伴わない大規模で強力なマルチモーダルモデルのトレーニングサンプルを選択できるかどうかを調査するDOSEについて検討する。
微調整がなくても、これらのモデルはテキストの品質と画像-テキストアライメントを効果的に評価し、データ選択をガイドすることができる。
そこで我々は,共同品質アライメント分布を構築し,適応重み付きサンプリングを適用して,長い尾の多様性を維持しつつ,情報的サンプルを選択する。
このアプローチはデータの多様性を高め、DOSEでフィルタされたデータでトレーニングされたモデルが、標準のVQAおよび数学ベンチマークでトレーニングされたデータセットでトレーニングされたモデルと一致するか、あるいは超えるようにする。
大規模な実験は、その有効性、効率、拡張性を示している。
関連論文リスト
- ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning [18.989158560585675]
大規模データセットのトレーニングは、計算コストが高く、データの冗長性のために非効率である。
ScalSelectは、線形時間複雑性を持つ訓練不要なマルチモーダルデータ選択法である。
ScalSelectはデータセット全体のトレーニングパフォーマンスの97.5%以上を16%のデータで達成し、一部の設定ではフルデータトレーニングよりも優れています。
論文 参考訳(メタデータ) (2026-02-12T06:38:49Z) - Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning [49.04912820721943]
Supervised Fine-tuning (SFT) は計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。
本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。
SFTにおける効率的なオンラインバッチ選択のためのフレームワークである textbfUDS (Utility-Diversity Sampling) を開発した。
論文 参考訳(メタデータ) (2025-10-19T15:32:01Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。