論文の概要: TADS: Task-Aware Data Selection for Multi-Task Multimodal Pre-Training
- arxiv url: http://arxiv.org/abs/2602.05251v1
- Date: Thu, 05 Feb 2026 03:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.739822
- Title: TADS: Task-Aware Data Selection for Multi-Task Multimodal Pre-Training
- Title(参考訳): TADS:マルチタスクマルチモーダル事前学習のためのタスク対応データ選択
- Authors: Guanjie Cheng, Boyi Li, Lingyu Sun, Mengying Zhu, Yangyang Wu, Xinkui Zhao, Shuiguang Deng,
- Abstract要約: マルチタスク・マルチモーダル・プレトレーニングのための新しいフレームワークであるTADS(Task-Aware Data Selection)を紹介する。
TADSは固有の品質、タスク関連性、分散多様性を学習可能な値関数に統合する。
フィードバック駆動型メタ学習機構は、プロキシモデルの性能に基づいて選択戦略を適応的に洗練する。
- 参考スコア(独自算出の注目度): 29.962039479618543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale multimodal pre-trained models like CLIP rely heavily on high-quality training data, yet raw web-crawled datasets are often noisy, misaligned, and redundant, leading to inefficient training and suboptimal generalization. Existing data selection methods are either heuristic-based, suffering from bias and limited diversity, or data-driven but task-agnostic, failing to optimize for multi-task scenarios. To address these gaps, we introduce TADS (Task-Aware Data Selection), a novel framework for multi-task multimodal pre-training that integrates Intrinsic Quality, Task Relevance, and Distributional Diversity into a learnable value function. TADS employs a comprehensive quality assessment system with unimodal and cross-modal operators, quantifies task relevance via interpretable similarity vectors, and optimizes diversity through cluster-based weighting. A feedback-driven meta-learning mechanism adaptively refines the selection strategy based on proxy model performance across multiple downstream tasks. Experiments on CC12M demonstrate that TADS achieves superior zero-shot performance on benchmarks like ImageNet, CIFAR-100, MS-COCO, and Flickr30K, using only 36% of the data while outperforming baselines by an average of 1.0%. This highlights that TADS significantly enhances data efficiency by curating a high-utility subset that yields a much higher performance ceiling within the same computational constraints.
- Abstract(参考訳): CLIPのような大規模マルチモーダル事前トレーニングモデルは、高品質なトレーニングデータに大きく依存するが、生のWebcrawledデータセットは、しばしばうるさい、不一致、冗長であり、非効率なトレーニングと亜最適一般化をもたらす。
既存のデータ選択方法はヒューリスティックベースであり、バイアスと限られた多様性に悩まされているか、データ駆動だがタスク非依存であり、マルチタスクシナリオの最適化に失敗している。
これらのギャップに対処するために,本研究では,固有品質,タスク関連性,分散多様性を学習可能な値関数に統合したマルチタスク・マルチモーダル事前学習のための新しいフレームワークであるTADS(Task-Aware Data Selection)を紹介する。
TADSは、一様およびクロスモーダル演算子による総合的な品質評価システムを採用し、解釈可能な類似性ベクトルを用いてタスク関連性を定量化し、クラスタベースの重み付けにより多様性を最適化する。
フィードバック駆動型メタ学習機構は、複数の下流タスクにわたるプロキシモデルのパフォーマンスに基づいて、選択戦略を適応的に洗練する。
CC12Mの実験によると、TADSはImageNet、CIFAR-100、MS-COCO、Flickr30Kなどのベンチマークで、データの36%しか使用せず、ベースラインを平均1.0%上回っている。
これは、TADSが、同じ計算制約の中ではるかに高いパフォーマンスの天井となる高ユーティリティサブセットをキュレートすることで、データ効率を著しく向上することを強調している。
関連論文リスト
- CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization [14.304308878028358]
マルチモーダルな大規模言語モデルは、視覚と言語機能を調整するための命令チューニングに大きく依存している。
既存のデータ選択方法は重要かつ多様なサブセットを選択することを目的としているが、それらはしばしば2つの重大な欠点に悩まされる。
我々は,これらの課題を克服するために,データの重要度と多様性を共同で最適化する,新しいデュアルオブジェクトフレームワークであるCoIDOを紹介する。
論文 参考訳(メタデータ) (2025-10-11T09:41:21Z) - Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。
データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。
Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-18T03:10:00Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - Multi-Teacher Multi-Objective Meta-Learning for Zero-Shot Hyperspectral Band Selection [50.30291173608449]
ゼロショットハイパースペクトル帯選択のための新しい多目的メタラーニングネットワーク(M$3$BS)を提案する。
M$3$BSでは、データセットに依存しないベースを生成するために、一般化可能なグラフ畳み込みネットワーク(GCN)を構築している。
取得したメタ知識は、トレーニングや微調整なしに、直接見えないデータセットに転送することができる。
論文 参考訳(メタデータ) (2024-06-12T07:13:31Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。