論文の概要: Vision-Language Dataset Distillation
- arxiv url: http://arxiv.org/abs/2308.07545v2
- Date: Mon, 2 Oct 2023 17:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:20:42.725980
- Title: Vision-Language Dataset Distillation
- Title(参考訳): 視覚言語データセット蒸留
- Authors: Xindi Wu, Byron Zhang, Zhiwei Deng, Olga Russakovsky
- Abstract要約: トラジェクトリマッチング(trajectory matching)のアイデアを拡張して、視覚言語データセットのためのデータセット蒸留法を作成するための第一歩を踏み出す。
重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。
提案手法は, コントラスト的定式化において, 画像テキスト対を共同蒸留する。
- 参考スコア(独自算出の注目度): 29.371308478925446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation methods promise to reduce large-scale datasets down to
significantly smaller sets of (potentially synthetic) training examples, which
preserve sufficient information for training a new model from scratch. So far,
dataset distillation methods have been developed for image classification.
However, with the rise in capabilities of vision-language models (VLMs), and
especially given the scale of datasets necessary to train these models, the
time is ripe to expand dataset distillation methods beyond image
classification. In this work, we take the first steps towards this goal by
expanding the idea of trajectory matching to create a distillation method for
vision-language datasets. A key challenge is that vision-language datasets do
not have a set of discrete classes. To overcome this, our proposed
vision-language dataset distillation method jointly distills the image-text
pairs in a contrastive formulation. Since there are no existing baselines, we
compare our approach to three coreset selection methods (strategic subsampling
of the training dataset), which we adapt to the vision-language setting. We
demonstrate significant improvements on the challenging Flickr30K and COCO
retrieval benchmarks: for example, on Flickr30K, the best coreset selection
method selecting 1000 image-text pairs for training achieves only 5.6%
image-to-text retrieval accuracy (i.e., recall@1); in contrast, our dataset
distillation approach almost doubles that to 9.9% with just 100 (an order of
magnitude fewer) training pairs.
- Abstract(参考訳): データセット蒸留法は、大規模なデータセットを、新しいモデルをスクラッチからトレーニングするための十分な情報を保存する(潜在的に合成された)トレーニング例のかなり小さなセットに削減することを約束する。
これまで画像分類のためのデータセット蒸留法が開発されてきた。
しかし、視覚言語モデル(vlms)の能力が高まり、特にこれらのモデルの訓練に必要なデータセットの規模を考えると、データセットの蒸留法を画像分類以外にも拡張する時期が熟した。
本研究では, 軌跡マッチングのアイデアを拡張し, 視覚言語データセットの蒸留法を作成することで, この目標に向けて第一歩を踏み出す。
重要な課題は、視覚言語データセットが離散クラスの集合を持っていないことである。
そこで本研究では,画像テキスト対をコントラスト的に蒸留するビジョン言語データセット蒸留法を提案する。
既存のベースラインがないため、我々のアプローチを3つのコアセット選択方法(トレーニングデータセットの戦略的なサブサンプリング)と比較し、視覚言語の設定に適応する。
例えばflickr30kでは、トレーニングのために1000のイメージテキストペアを選択する最良のコアセット選択方法が、5.6%のイメージからテキストへの検索精度(recall@1)を達成しています。
関連論文リスト
- Low-Rank Similarity Mining for Multimodal Dataset Distillation [50.45577048854653]
マルチモーダルデータセット蒸留におけるローランド類似性マイニング(LoRS)を提案する。
LoRSは、画像とテキストのペアと基底真理類似性行列を蒸留し、低ランクの分解を効率とスケーラビリティに活用する。
論文 参考訳(メタデータ) (2024-06-06T07:05:20Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-08T13:19:23Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。