論文の概要: EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics
- arxiv url: http://arxiv.org/abs/2509.13858v1
- Date: Wed, 17 Sep 2025 09:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.808642
- Title: EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics
- Title(参考訳): EDITS: テキストセマンティックスによるデータセット蒸留の強化
- Authors: Qianxin Xia, Jiawei Du, Guoming Lu, Zhiyong Shu, Jielei Wang,
- Abstract要約: EDITSは、画像データ内の暗黙のテキストセマンティクスを利用して、拡張蒸留を実現する新しいフレームワークである。
本稿では, 画像データ中の暗黙のテキスト意味を活かし, 拡張蒸留を実現する新しいフレームワークであるEDITSを提案する。
- 参考スコア(独自算出の注目度): 12.818622596576775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to synthesize a compact dataset from the original large-scale one, enabling highly efficient learning while preserving competitive model performance. However, traditional techniques primarily capture low-level visual features, neglecting the high-level semantic and structural information inherent in images. In this paper, we propose EDITS, a novel framework that exploits the implicit textual semantics within the image data to achieve enhanced distillation. First, external texts generated by a Vision Language Model (VLM) are fused with image features through a Global Semantic Query module, forming the prior clustered buffer. Local Semantic Awareness then selects representative samples from the buffer to construct image and text prototypes, with the latter produced by guiding a Large Language Model (LLM) with meticulously crafted prompt. Ultimately, Dual Prototype Guidance strategy generates the final synthetic dataset through a diffusion model. Extensive experiments confirm the effectiveness of our method.Source code is available in: https://github.com/einsteinxia/EDITS.
- Abstract(参考訳): データセット蒸留は、オリジナルの大規模データセットからコンパクトデータセットを合成することを目的としており、競争モデルの性能を維持しながら高い効率の学習を可能にする。
しかし、従来の技術は主に低レベルの視覚的特徴を捉え、画像に固有の高レベルな意味と構造的な情報を無視する。
本稿では, 画像データ中の暗黙のテキスト意味を活かし, 拡張蒸留を実現する新しいフレームワークであるEDITSを提案する。
まず、視覚言語モデル(VLM)によって生成された外部テキストは、Global Semantic Queryモジュールを通じて画像特徴と融合し、以前のクラスタ化バッファを形成する。
ローカルセマンティック認識(Local Semantic Awareness)はバッファから代表サンプルを選択して画像とテキストのプロトタイプを構築する。
最終的に、Dual Prototype Guidance戦略は拡散モデルを通して最終的な合成データセットを生成する。
ソースコードは、https://github.com/einsteinxia/EDITS.com/einsteinxia/EDITSで公開されている。
関連論文リスト
- Dataset Distillation via Vision-Language Category Prototype [14.526547847730548]
本稿では,視覚言語を用いて言語情報を抽出し,画像のプロトタイプを用いてデータを協調的に合成する手法を提案する。
このフレームワークは、既存のテキスト記述なしでデータセット全体に適用可能であることを示す。
提案手法は,対象物を含む論理的コヒーレントな画像を生成し,最先端の検証性能を実現し,ロバストな一般化を実証する。
論文 参考訳(メタデータ) (2025-06-30T07:34:33Z) - RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
Contrastive Language-Image Pre-Training (CLIP)は、様々なベンチマークで有望なパフォーマンスを示す。
マルチモーダルなインターリーブド文書のかなりの量は、コントラッシブな視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを構築し,15M,30M,100Mの3つのスケールで利用可能である。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [62.81033771780328]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。