論文の概要: Understanding the Gain from Data Filtering in Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2512.14230v1
- Date: Tue, 16 Dec 2025 09:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.661412
- Title: Understanding the Gain from Data Filtering in Multimodal Contrastive Learning
- Title(参考訳): マルチモーダルコントラスト学習におけるデータフィルタリングからの利得の理解
- Authors: Divyansh Pareek, Sewoong Oh, Simon S. Du,
- Abstract要約: 本稿では,標準バイモーダルデータ生成モデルの下でのフィルタ付きコントラスト学習の成功例を示す。
教師ベースのフィルタリングの誤差は、大きな$$レジアでは$frac1sqrtn$、小さな$レジアでは$frac1sqrtn$によって上限づけられていることを示す。
- 参考スコア(独自算出の注目度): 58.09454096371477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of modern multimodal representation learning relies on internet-scale datasets. Due to the low quality of a large fraction of raw web data, data curation has become a critical step in the training pipeline. Filtering using a trained model (i.e., teacher-based filtering) has emerged as a successful solution, leveraging a pre-trained model to compute quality scores. To explain the empirical success of teacher-based filtering, we characterize the performance of filtered contrastive learning under the standard bimodal data generation model. Denoting $η\in(0,1]$ as the fraction of data with correctly matched modalities among $n$ paired samples, we utilize a linear contrastive learning setup to show a provable benefit of data filtering: $(i)$ the error without filtering is upper and lower bounded by $\frac{1}{η\sqrt{n}}$, and $(ii)$ the error with teacher-based filtering is upper bounded by $\frac{1}{\sqrt{ηn}}$ in the large $η$ regime, and by $\frac{1}{\sqrt{n}}$ in the small $η$ regime.
- Abstract(参考訳): 現代のマルチモーダル表現学習の成功は、インターネットスケールのデータセットに依存している。
大量の生のWebデータの品質が低いため、トレーニングパイプラインではデータのキュレーションが重要なステップになっている。
トレーニングされたモデル(すなわち教師ベースのフィルタリング)を用いたフィルタリングは、トレーニング済みのモデルを利用して品質スコアを計算し、成功したソリューションとして現れている。
教師によるフィルタリングの実証的な成功を説明するため,標準バイモーダルデータ生成モデルに基づくフィルタ付きコントラスト学習の性能を特徴付ける。
$η\in(0,1]$を$n$ペアのサンプルで正しく一致したモダリティを持つデータの分数として意味することは、線形コントラスト学習のセットアップを使用して、データフィルタリングの証明可能な利点を示す。
(i)$ フィルタなしのエラーは$\frac{1}{η\sqrt{n}}$ と $ で上限値と下限値である。
(ii)教師ベースのフィルタリングのエラーは、$\frac{1}{\sqrt{ηn}}$で、$\frac{1}{\sqrt{ηn}}$で、$\frac{1}{\sqrt{n}}$で、小さな$η$ regimeで上限となる。
関連論文リスト
- Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [72.69498649272347]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しいパラダイムを提案する。
提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Data-Efficient Learning via Clustering-Based Sensitivity Sampling:
Foundation Models and Beyond [28.651041302245538]
我々は$k$-meansクラスタリングとサンプリング感度に基づく新しいデータ選択手法を提案する。
線形回帰にどのように適用できるかを示すとともに,レバレッジスコアサンプリングの性能と驚くほど一致した新しいサンプリング戦略がもたらされる。
論文 参考訳(メタデータ) (2024-02-27T09:03:43Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。