論文の概要: Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning
- arxiv url: http://arxiv.org/abs/2409.01410v1
- Date: Mon, 2 Sep 2024 18:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 04:14:12.705403
- Title: Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning
- Title(参考訳): 第一原理に基づくデータセット蒸留 : コア情報抽出と目的学習の統合
- Authors: Vyacheslav Kungurtsev, Yuanfang Peng, Jianyang Gu, Saeed Vahidian, Anthony Quinn, Fadwa Idlahcen, Yiran Chen,
- Abstract要約: 我々は、基礎となる最適化問題の正確な特徴付けは、関心の応用に関連する推論タスクを指定しなければならないと論じる。
我々の形式化は、様々なモデリング環境にまたがるDDの新たな応用を明らかにします。
現代の環境において重要な2つのケーススタディについて数値的な結果を示す。
- 参考スコア(独自算出の注目度): 10.116674195405126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation (DD) is an increasingly important technique that focuses on constructing a synthetic dataset capable of capturing the core information in training data to achieve comparable performance in models trained on the latter. While DD has a wide range of applications, the theory supporting it is less well evolved. New methods of DD are compared on a common set of benchmarks, rather than oriented towards any particular learning task. In this work, we present a formal model of DD, arguing that a precise characterization of the underlying optimization problem must specify the inference task associated with the application of interest. Without this task-specific focus, the DD problem is under-specified, and the selection of a DD algorithm for a particular task is merely heuristic. Our formalization reveals novel applications of DD across different modeling environments. We analyze existing DD methods through this broader lens, highlighting their strengths and limitations in terms of accuracy and faithfulness to optimal DD operation. Finally, we present numerical results for two case studies important in contemporary settings. Firstly, we address a critical challenge in medical data analysis: merging the knowledge from different datasets composed of intersecting, but not identical, sets of features, in order to construct a larger dataset in what is usually a small sample setting. Secondly, we consider out-of-distribution error across boundary conditions for physics-informed neural networks (PINNs), showing the potential for DD to provide more physically faithful data. By establishing this general formulation of DD, we aim to establish a new research paradigm by which DD can be understood and from which new DD techniques can arise.
- Abstract(参考訳): データセット蒸留(DD)は、トレーニングデータのコア情報をキャプチャして、後者でトレーニングされたモデルで同等のパフォーマンスを達成する合成データセットの構築に焦点を当てる、ますます重要な技術である。
DDには幅広い応用があるが、それを支持する理論はあまり進化していない。
DDの新しい手法は、特定の学習タスクを指向するのではなく、共通のベンチマークセットで比較される。
そこで本研究では,DDの形式的モデルとして,対象とする最適化問題を正確に評価するには,関心の応用に関連する推論タスクを指定する必要がある,と論じる。
このタスク固有の焦点がなければ、DD問題は未定であり、特定のタスクに対するDDアルゴリズムの選択はヒューリスティックである。
我々の形式化は、様々なモデリング環境にまたがるDDの新たな応用を明らかにします。
我々は,この広角レンズを用いて既存のDD法を解析し,その強度と限界を最適DD操作に対する精度と忠実度の観点から明らかにした。
最後に,現代環境において重要な2つのケーススタディについて,数値的な結果を示す。
まず、医療データ分析における重要な課題として、交差するが同一ではない異なるデータセットから知識をマージして、通常小さなサンプル設定である大きなデータセットを構築する。
第2に,物理インフォームドニューラルネットワーク(PINN)の境界条件を越えた分布誤差を考察し,DDがより物理的に忠実なデータを提供する可能性を示す。
このDDの一般的な定式化を確立することにより、DDを理解するための新たな研究パラダイムを確立し、そこから新たなDD技術が生まれることを目標にしている。
関連論文リスト
- DistDD: Distributed Data Distillation Aggregation through Gradient Matching [14.132062317010847]
DistDDは、クライアントのデバイスに直接データを蒸留することで、反復的なコミュニケーションの必要性を減らす、連邦学習フレームワークにおける新しいアプローチである。
本研究では,DistDDアルゴリズムの詳細な収束証明を行い,その数学的安定性と信頼性を実証する。
論文 参考訳(メタデータ) (2024-10-11T09:43:35Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Exploring the Impact of Dataset Bias on Dataset Distillation [10.742404631413029]
データセット蒸留(DD)におけるデータセットバイアスの影響について検討する。
DDは、オリジナルのデータセットから必須情報を保持する小さなデータセットを合成するテクニックである。
実験により、元のデータセットに存在するバイアスが合成データセットのパフォーマンスに大きな影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-03-24T06:10:22Z) - Can pre-trained models assist in dataset distillation? [21.613468512330442]
事前訓練されたモデル(PTM)は知識リポジトリとして機能し、元のデータセットからの広範な情報を含んでいる。
PTMは、知識を合成データセットに効果的に転送し、DDを正確に導くことができますか?
我々は,初期化パラメータ,モデルアーキテクチャ,エポックトレーニング,ドメイン知識など,PTMのさまざまな選択肢を体系的に研究する。
論文 参考訳(メタデータ) (2023-10-05T03:51:21Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Deep Unsupervised Domain Adaptation: A Review of Recent Advances and
Perspectives [16.68091981866261]
対象領域のデータの性能低下に対応するために、教師なし領域適応(UDA)を提案する。
UDAは、自然言語処理、ビデオ解析、自然言語処理、時系列データ分析、医用画像解析など、有望な成果を上げている。
論文 参考訳(メタデータ) (2022-08-15T20:05:07Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。