論文の概要: Technical Report on Text Dataset Distillation
- arxiv url: http://arxiv.org/abs/2512.03967v1
- Date: Wed, 03 Dec 2025 16:58:44 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:59:08.680066
- Title: Technical Report on Text Dataset Distillation
- Title(参考訳): テキストデータセット蒸留技術報告
- Authors: Keith Ando Ogawa, Bruno Lopes Yamamoto, Lucas Lauton de Alcantara, Victor Zacarias, Edson Bollis, Lucas Pellicer, Rosimeire Pereira Costa, Anna Helena Reali Costa, Artur Jordao,
- Abstract要約: テキストデータセットの蒸留は、当初、ビジョン宇宙からの努力の適応として成長した。
近代的なアプローチの大きな進歩にもかかわらず、この分野は成熟段階にある。
- 参考スコア(独自算出の注目度): 0.6094711396431723
- License:
- Abstract: In the vision domain, dataset distillation arises as a technique to condense a large dataset into a smaller synthetic one that exhibits a similar result in the training process. While image data presents an extensive literature of distillation methods, text dataset distillation has fewer works in comparison. Text dataset distillation initially grew as an adaptation of efforts from the vision universe, as the particularities of the modality became clear obstacles, it rose into a separate branch of research. Several milestones mark the development of this area, such as the introduction of methods that use transformer models, the generation of discrete synthetic text, and the scaling to decoder-only models with over 1B parameters. Despite major advances in modern approaches, the field remains in a maturing phase, with room for improvement on benchmarking standardization, approaches to overcome the discrete nature of text, handling complex tasks, and providing explicit examples of real-world applications. In this report, we review past and recent advances in dataset distillation for text, highlighting different distillation strategies, key contributions, and general challenges.
- Abstract(参考訳): ビジョン領域では、データセットの蒸留は、トレーニングプロセスで同様の結果を示す小さな合成データセットに大きなデータセットを凝縮する技術として生じる。
画像データは蒸留方法の広範な文献を提示するが、テキストデータセットの蒸留は比較対象よりも少ない。
テキストデータセットの蒸留は、当初、モダリティの特異性が明らかな障害となるにつれて、視覚宇宙からの努力の適応として成長し、別の研究分野へと発展した。
いくつかのマイルストーンは、トランスフォーマーモデルを使用するメソッドの導入、離散合成テキストの生成、および1Bパラメータを超えるデコーダのみのモデルへのスケーリングなど、この分野の発展を象徴している。
現代のアプローチの大きな進歩にもかかわらず、この分野は成熟段階にあり、標準化のベンチマークの改善、テキストの離散性を克服するアプローチ、複雑なタスクの処理、現実世界のアプリケーションの明示的な例を提供する余地がある。
本報告では, テキストにおけるデータセット蒸留の過去および最近の進歩を概観し, 異なる蒸留戦略, 重要な貢献, 一般課題について述べる。
関連論文リスト
- Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation [0.7560883489000576]
画像合成におけるコントラスト学習を統合した新しいデータセット蒸留法を提案する。
提案手法は,データセットのサイズが著しく制約された場合でも,より情報的かつ多様な合成サンプルを生成する。
論文 参考訳(メタデータ) (2025-05-21T08:46:29Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Exploring Multilingual Text Data Distillation [0.0]
言語モデルに基づく学習手法を用いて,多言語テキスト分類データセットのためのデータ蒸留手法を提案する。
我々は,分類強度とアーキテクチャ間の一般化の観点から,それらの性能を解析する実験を行う。
提案手法は, テキストデータ蒸留領域におけるクロスアーキテクチャの一般化を促進するため, 既存の手法に基づいている。
論文 参考訳(メタデータ) (2023-08-09T14:31:57Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。