論文の概要: Vision-Language Dataset Distillation
- arxiv url: http://arxiv.org/abs/2308.07545v3
- Date: Wed, 7 Feb 2024 18:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:12:32.826760
- Title: Vision-Language Dataset Distillation
- Title(参考訳): 視覚言語データセット蒸留
- Authors: Xindi Wu, Byron Zhang, Zhiwei Deng, Olga Russakovsky
- Abstract要約: トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。
重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。
提案手法は, コントラスト式で画像とテキストのペアを共同蒸留する。
- 参考スコア(独自算出の注目度): 29.371308478925446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation methods reduce large-scale datasets to smaller sets of
synthetic data, which preserve sufficient information for quickly training a
new model from scratch. However, prior work on dataset distillation has focused
exclusively on image classification datasets, whereas modern large-scale
datasets are primarily in the vision-language space. In this work, we design
the first vision-language dataset distillation method, building on the idea of
trajectory matching. A key challenge is that vision-language datasets do not
have a set of discrete classes. To overcome this, our proposed method jointly
distills the image-text pairs in a contrastive formulation. Further, we
leverage Low-Rank Adaptation (LoRA) matching to enable more efficient and
effective trajectory matching in complex modern vision-language models. Since
there are no existing baselines, we compare our distillation approach to three
adapted vision-language coreset selection methods. We demonstrate significant
improvements on the challenging Flickr30K and COCO retrieval benchmarks: for
example, on Flickr30K, the best coreset selection method selecting 1000
image-text pairs for training achieves only 5.6% image-to-text retrieval
accuracy (i.e., recall@1); in contrast, our dataset distillation approach
almost doubles that to 9.9% with just 100 (an order of magnitude fewer)
training pairs.
- Abstract(参考訳): データセット蒸留法は、大規模なデータセットを小さな合成データに還元し、新しいモデルをスクラッチからすばやくトレーニングするのに十分な情報を保存する。
しかしながら、データセットの蒸留に関する以前の研究は、画像分類データセットにのみ焦点を合わせてきた。
本研究では,トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。
重要な課題は、視覚言語データセットが離散クラスの集合を持っていないことである。
これを解決するために, コントラスト式で画像テキスト対を共同蒸留する手法を提案する。
さらに, 複雑な視覚言語モデルにおいて, より効率的かつ効果的な軌跡マッチングを可能にするために, ローランク適応 (lora) マッチングを利用する。
既存のベースラインがないため、蒸留アプローチを3つの視覚言語コアセット選択法と比較する。
例えばflickr30kでは、トレーニングのために1000のイメージテキストペアを選択する最良のコアセット選択方法が、5.6%のイメージからテキストへの検索精度(recall@1)を達成しています。
関連論文リスト
- Low-Rank Similarity Mining for Multimodal Dataset Distillation [50.45577048854653]
マルチモーダルデータセット蒸留におけるローランド類似性マイニング(LoRS)を提案する。
LoRSは、画像とテキストのペアと基底真理類似性行列を蒸留し、低ランクの分解を効率とスケーラビリティに活用する。
論文 参考訳(メタデータ) (2024-06-06T07:05:20Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-08T13:19:23Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。