論文の概要: Concept-Aware Batch Sampling Improves Language-Image Pretraining
- arxiv url: http://arxiv.org/abs/2511.20643v1
- Date: Tue, 25 Nov 2025 18:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.641292
- Title: Concept-Aware Batch Sampling Improves Language-Image Pretraining
- Title(参考訳): 概念認識型バッチサンプリングによる言語イメージの事前学習の改善
- Authors: Adhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge,
- Abstract要約: Concept-Aware Batch Smpling (CABS)は、バッチをオンザフライで柔軟に構築する、シンプルで効果的なバッチサンプリングフレームワークである。
CABSはCLIP/SigLIPモデルクラスに有益であり,高性能なモデルが得られることを示す。
全体として、CABSはプロプライエタリなオンラインデータキュレーションアルゴリズムに代わる強力なオープンソースである。
- 参考スコア(独自算出の注目度): 78.53540190580189
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: What data should a vision-language model be trained on? To answer this question, many data curation efforts center on the quality of a dataset. However, most of these existing methods are (i) offline, i.e. they produce a static dataset from a set of predetermined filtering criteria, and (ii) concept-agnostic, i.e. they use model-based filters which induce additional data biases. In this work, we go beyond such offline, concept-agnostic methods and advocate for more flexible, task-adaptive online concept-based curation. Our first contribution is DataConcept, a collection of 128M web-crawled image-text pairs annotated with fine-grained details about their concept composition. Building on DataConcept, we introduce Concept-Aware Batch Sampling (CABS), a simple yet effective batch sampling framework that flexibly constructs batches on-the-fly based on specific target distributions. We propose two variants: (i) Diversity Maximization (CABS-DM) to curate batches with a broad coverage of available concepts, and (ii) Frequency Maximization (CABS-FM) to curate batches with high object multiplicity. Through extensive evaluations across 28 benchmarks, we demonstrate that our CABS method significantly benefits CLIP/SigLIP model classes and yields highly performant models. Overall, CABS represents a strong open-source alternative to proprietary online data curation algorithms, enabling practitioners to define custom concept distributions that optimize for specific downstream tasks.
- Abstract(参考訳): ビジョン言語モデルをトレーニングすべきデータは何か?
この質問に答えるために、多くのデータキュレーションはデータセットの品質に重点を置いている。
しかし、これらの既存の手法のほとんどは
(i)オフライン、すなわち、所定のフィルタリング基準のセットから静的なデータセットを生成し、
(ii)概念に依存しない、すなわち、追加のデータバイアスを引き起こすモデルベースのフィルタを使用する。
この作業では、このようなオフラインで概念に依存しない方法を超えて、より柔軟でタスク適応型のオンラインコンセプトベースのキュレーションを提唱します。
最初のコントリビューションはDataConceptです。これは1億1800万のWebクローリングされたイメージテキストペアのコレクションで、そのコンセプト構成の詳細を注釈付けしています。
DataConcept上に構築されたConcept-Aware Batch Smpling (CABS)は,特定のターゲット分布に基づいてバッチを柔軟に構築する,シンプルかつ効果的なバッチサンプリングフレームワークである。
我々は2つの変種を提案する。
一 利用可能な概念を幅広く網羅したバッチをキュレートするための多様性最大化(CABS-DM)
(II)周波数最大化(CABS-FM)により,高対象倍率のバッチをキュレートする。
CABS法はCLIP/SigLIPモデルクラスに有益であり,高性能なモデルが得られることを示す。
全体として、CABSはプロプライエタリなオンラインデータキュレーションアルゴリズムの強力な代替手段であり、特定の下流タスクに最適化するカスタムなコンセプトディストリビューションを定義することができる。
関連論文リスト
- Online-PVLM: Advancing Personalized VLMs with Online Concept Learning [19.46716778297505]
Online-PVLMは、双曲表現を利用したオンライン概念学習のフレームワークである。
OP-Evalは1,292のコンセプトと、多様な質問型を持つ30K以上の高品質なインスタンスからなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-25T08:25:30Z) - Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Visual Data Diagnosis and Debiasing with Concept Graphs [50.84781894621378]
視覚データセットにおける概念共起バイアスの診断と緩和のためのフレームワークであるConBiasを提案する。
このような不均衡を緩和し,下流タスクの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:59:01Z) - Explain via Any Concept: Concept Bottleneck Model with Open Vocabulary Concepts [8.028021897214238]
OpenCBMはオープン語彙の概念を持つ最初のCBMである。
ベンチマークデータセットCUB-200-2011の分類精度は,従来のCBMよりも9%向上した。
論文 参考訳(メタデータ) (2024-08-05T06:42:00Z) - Variational Information Pursuit with Large Language and Multimodal
Models for Interpretable Predictions [9.07837207208113]
変分情報探索 (V-IP) は、設計によって解釈可能な予測を行うためのフレームワークである。
任意のタスクにV-IPを適用するには、ドメインの専門家による密集した概念ラベル付きデータサンプルが必要である。
我々は、この制限に対処するために、FM(Foundational Models)でV-IPフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-08-24T05:04:10Z) - Semi-supervised multi-view concept decomposition [30.699496411869834]
概念因子化(CF)は、マルチビュークラスタリングタスクにおいて優れた性能を示している。
そこで我々は,SMVCFという,新しい半教師付き多視点概念分解モデルを提案する。
SMVCFの性能を評価するために,4つの多様なデータセットの実験を行った。
論文 参考訳(メタデータ) (2023-07-03T10:50:44Z) - Towards Explainable Collaborative Filtering with Taste Clusters Learning [43.4512681951459]
協調フィルタリング(CF)は、リコメンダシステムにおいて広く使われ、効果的な手法である。
レコメンデーションモデルに説明可能性を追加することは、意思決定プロセスにおける信頼を高めるだけでなく、複数のメリットも得る。
本稿では,解釈可能なクラスタ・ラーニングを生かした,クリーンで効果的なECF(Explainable Collaborative Filtering)モデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T03:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。