論文の概要: Distilling Dataset into Neural Field
- arxiv url: http://arxiv.org/abs/2503.04835v1
- Date: Wed, 05 Mar 2025 14:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:02.083571
- Title: Distilling Dataset into Neural Field
- Title(参考訳): ニューラルネットワークへのデータセットの蒸留
- Authors: Donghyeok Shin, HeeSun Bae, Gyuwon Sim, Wanmo Kang, Il-Chul Moon,
- Abstract要約: 本稿では,データセット蒸留のための新しいパラメータ化フレームワークであるDistilling datasetをニューラルネットワーク(DDiF)に生成する手法を提案する。
神経野のユニークな性質のため、DDiFは情報を効果的に保存し、様々な形のデータを容易に生成する。
DDiFは、画像領域を超えて、ビデオ、オーディオ、および3Dボクセルを含む、いくつかのベンチマークデータセットで優れたパフォーマンスを実現することを実証する。
- 参考スコア(独自算出の注目度): 12.551430414723086
- License:
- Abstract: Utilizing a large-scale dataset is essential for training high-performance deep learning models, but it also comes with substantial computation and storage costs. To overcome these challenges, dataset distillation has emerged as a promising solution by compressing the large-scale dataset into a smaller synthetic dataset that retains the essential information needed for training. This paper proposes a novel parameterization framework for dataset distillation, coined Distilling Dataset into Neural Field (DDiF), which leverages the neural field to store the necessary information of the large-scale dataset. Due to the unique nature of the neural field, which takes coordinates as input and output quantity, DDiF effectively preserves the information and easily generates various shapes of data. We theoretically confirm that DDiF exhibits greater expressiveness than some previous literature when the utilized budget for a single synthetic instance is the same. Through extensive experiments, we demonstrate that DDiF achieves superior performance on several benchmark datasets, extending beyond the image domain to include video, audio, and 3D voxel. We release the code at https://github.com/aailab-kaist/DDiF.
- Abstract(参考訳): 大規模データセットを利用することは、高性能なディープラーニングモデルのトレーニングには不可欠だが、相当な計算とストレージコストも伴う。
これらの課題を克服するために、大規模なデータセットをトレーニングに必要な重要な情報を保持する小さな合成データセットに圧縮することで、データセットの蒸留が有望なソリューションとして浮上した。
本稿では, 大規模データセットに必要な情報を保存するために, ニューラルネットワークを利用した新しいパラメータ化フレームワークであるDistilling Dataset into Neural Field (DDiF)を提案する。
DDiFは、座標を入力および出力量として取り込むニューラルネットワークの独特な性質のため、情報を効果的に保存し、データの様々な形状を容易に生成する。
我々は,DDiFが1つの合成インスタンスの有効利用予算が同じである場合,従来の文献よりも表現力が高いことを理論的に確認する。
大規模な実験を通じて、DDiFは、ビデオ、オーディオ、および3Dボクセルを含む画像領域を超えて、いくつかのベンチマークデータセットで優れたパフォーマンスを達成することを実証した。
コードはhttps://github.com/aailab-kaist/DDiF.comで公開しています。
関連論文リスト
- DDFAD: Dataset Distillation Framework for Audio Data [16.55650741388241]
ディープニューラルネットワーク(DNN)は多くのアプリケーションで大きな成功を収めている。
ディープニューラルネットワーク(DNN)は多くのアプリケーションで大きな成功を収めている。
論文 参考訳(メタデータ) (2024-07-15T05:23:35Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Expanding Small-Scale Datasets with Guided Imagination [92.5276783917845]
データセット拡張は、新しいラベル付きサンプルを自動生成することによって、使用可能な小さなデータセットを拡張することを目的とした、新しいタスクである。
GIFは、先行モデルの意味論的意味のある空間において、シードデータの潜伏した特徴を最適化することにより、データイマジネーションを行う。
GIF-SDは、SDによる非ガイド展開よりも、自然画像データセットのモデル精度が13.5%高い。
論文 参考訳(メタデータ) (2022-11-25T09:38:22Z) - Primitive3D: 3D Object Dataset Synthesis from Randomly Assembled
Primitives [44.03149443379618]
アノテーションで大量の3Dオブジェクトを自動生成するコスト効率のよい手法を提案する。
これらのオブジェクトはプリミティブから派生した部分ラベルで自動アノテーションされる。
生成したデータセットに対する学習のオーバーヘッドが大きいことを考慮し,データセットの蒸留戦略を提案する。
論文 参考訳(メタデータ) (2022-05-25T10:07:07Z) - Data Distillation for Text Classification [7.473576666437028]
データ蒸留は、大規模なトレーニングデータセットから、より小さな合成データセットに知識を蒸留することを目的としている。
テキスト分類のための新しいデータ蒸留法を開発した。
元のテキストデータの0.1%のサイズの蒸留されたデータは、元の約90%のパフォーマンスを達成する結果は、かなり印象的です。
論文 参考訳(メタデータ) (2021-04-17T04:54:54Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。