論文の概要: Dataset Distillation via Vision-Language Category Prototype
- arxiv url: http://arxiv.org/abs/2506.23580v1
- Date: Mon, 30 Jun 2025 07:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.959508
- Title: Dataset Distillation via Vision-Language Category Prototype
- Title(参考訳): ビジョンランゲージカテゴリー型によるデータセット蒸留
- Authors: Yawen Zou, Guang Li, Duo Su, Zi Wang, Jun Yu, Chao Zhang,
- Abstract要約: 本稿では,視覚言語を用いて言語情報を抽出し,画像のプロトタイプを用いてデータを協調的に合成する手法を提案する。
このフレームワークは、既存のテキスト記述なしでデータセット全体に適用可能であることを示す。
提案手法は,対象物を含む論理的コヒーレントな画像を生成し,最先端の検証性能を実現し,ロバストな一般化を実証する。
- 参考スコア(独自算出の注目度): 14.526547847730548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) condenses large datasets into compact yet informative substitutes, preserving performance comparable to the original dataset while reducing storage, transmission costs, and computational consumption. However, previous DD methods mainly focus on distilling information from images, often overlooking the semantic information inherent in the data. The disregard for context hinders the model's generalization ability, particularly in tasks involving complex datasets, which may result in illogical outputs or the omission of critical objects. In this study, we integrate vision-language methods into DD by introducing text prototypes to distill language information and collaboratively synthesize data with image prototypes, thereby enhancing dataset distillation performance. Notably, the text prototypes utilized in this study are derived from descriptive text information generated by an open-source large language model. This framework demonstrates broad applicability across datasets without pre-existing text descriptions, expanding the potential of dataset distillation beyond traditional image-based approaches. Compared to other methods, the proposed approach generates logically coherent images containing target objects, achieving state-of-the-art validation performance and demonstrating robust generalization. Source code and generated data are available in https://github.com/zou-yawen/Dataset-Distillation-via-Vision-Language-Category-Prototype/
- Abstract(参考訳): データセット蒸留(DD)は、大規模なデータセットをコンパクトで情報的な代替品に凝縮し、ストレージ、送信コスト、計算消費を削減しながら、元のデータセットに匹敵するパフォーマンスを維持する。
しかし、従来のDD法は主に画像から情報を抽出することに焦点を当てており、しばしばデータ固有の意味情報を見下ろしている。
文脈の無視は、特に複雑なデータセットを含むタスクにおいてモデルの一般化能力を妨げる。
本研究では,テキストのプロトタイプを導入し,画像のプロトタイプと協調してデータを合成し,データセットの蒸留性能を向上させることによって,視覚言語手法をDDに統合する。
特に,本研究で用いたテキストプロトタイプは,オープンソースの大言語モデルによって生成された記述的テキスト情報から得られたものである。
このフレームワークは、既存のテキスト記述を使わずにデータセット全体に適用可能性を示し、従来の画像ベースのアプローチを超えてデータセット蒸留の可能性を広げる。
提案手法は他の手法と比較して,対象物を含む論理的コヒーレントな画像を生成し,最先端の検証性能を実現し,ロバストな一般化を実証する。
ソースコードと生成されたデータはhttps://github.com/zou-yawen/Dataset-Distillation-via-Vision-Language-Category-Prototype/で公開されている。
関連論文リスト
- D2AF: A Dual-Driven Annotation and Filtering Framework for Visual Grounding [36.321156992727055]
D2AFは、入力画像のみを使用して視覚的な接地を行うための堅牢なアノテーションフレームワークである。
二重駆動型アノテーション戦略を実装することにより、詳細な領域テキストペアを効果的に生成する。
以上の結果から,データ量の増加がモデル性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-05-30T09:04:47Z) - CONCORD: Concept-Informed Diffusion for Dataset Distillation [29.092857460373278]
本研究では,データセット蒸留のためのconcept-Informed Diffusion (CONCORD)を提案する。
提案手法は, 蒸留画像生成の可制御性と解釈性の両方を著しく向上させる。
画像Net-1Kとそのサブセットの最先端性能を達成し,CONCORDの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-23T20:39:23Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Exploring Multilingual Text Data Distillation [0.0]
言語モデルに基づく学習手法を用いて,多言語テキスト分類データセットのためのデータ蒸留手法を提案する。
我々は,分類強度とアーキテクチャ間の一般化の観点から,それらの性能を解析する実験を行う。
提案手法は, テキストデータ蒸留領域におけるクロスアーキテクチャの一般化を促進するため, 既存の手法に基づいている。
論文 参考訳(メタデータ) (2023-08-09T14:31:57Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。