論文の概要: Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications
- arxiv url: http://arxiv.org/abs/2101.06069v1
- Date: Fri, 15 Jan 2021 11:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:28:21.252233
- Title: Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications
- Title(参考訳): データインプレッション:データフリーアプリケーションのためのサンプル抽出のための深層モデルマイニング
- Authors: Gaurav Kumar Nayak, Konda Reddy Mopuri, Saksham Jain, Anirban
Chakraborty
- Abstract要約: データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
- 参考スコア(独自算出の注目度): 26.48630545028405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained deep models hold their learnt knowledge in the form of the model
parameters. These parameters act as memory for the trained models and help them
generalize well on unseen data. However, in absence of training data, the
utility of a trained model is merely limited to either inference or better
initialization towards a target task. In this paper, we go further and extract
synthetic data by leveraging the learnt model parameters. We dub them "Data
Impressions", which act as proxy to the training data and can be used to
realize a variety of tasks. These are useful in scenarios where only the
pretrained models are available and the training data is not shared (e.g., due
to privacy or sensitivity concerns). We show the applicability of data
impressions in solving several computer vision tasks such as unsupervised
domain adaptation, continual learning as well as knowledge distillation. We
also study the adversarial robustness of the lightweight models trained via
knowledge distillation using these data impressions. Further, we demonstrate
the efficacy of data impressions in generating UAPs with better fooling rates.
Extensive experiments performed on several benchmark datasets demonstrate
competitive performance achieved using data impressions in absence of the
original training data.
- Abstract(参考訳): 事前訓練された深層モデルは、モデルパラメータの形で学習した知識を保持する。
これらのパラメータは、トレーニングされたモデルのメモリとして機能し、見えないデータにうまく一般化するのに役立ちます。
しかし、トレーニングデータがない場合、訓練されたモデルの効用は単に推論か目標タスクへのより良い初期化に限られる。
本稿では、学習したモデルパラメータを利用して、さらに進化して合成データを抽出する。
トレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用できる“Data Impressions”をダブしています。
これらは、事前トレーニングされたモデルのみが利用可能で、トレーニングデータが共有されていないシナリオ(プライバシや感度の懸念など)で有効です。
本研究では,教師なし領域適応,連続学習,知識蒸留などのコンピュータビジョン課題に対するデータ印象の適用性を示す。
また, これらのデータインプレッションを用いて, 知識蒸留により訓練した軽量モデルの逆強靭性について検討した。
さらに,データインプレッションが,不正率の高いuap生成に有効であることを示す。
いくつかのベンチマークデータセットで実施された広範囲な実験は、元のトレーニングデータがない場合のデータインプレッションを使用して、競争力のあるパフォーマンスを示す。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Releasing Malevolence from Benevolence: The Menace of Benign Data on Machine Unlearning [28.35038726318893]
大量の実データや合成データに基づいてトレーニングされた機械学習モデルは、様々な領域で優れた予測性能を達成する。
プライバシの懸念に対処するため、モデルから特定のデータサンプルを削除するために、機械学習が提案されている。
本研究では,データ配信情報を少量の良質なデータ集合に抽出するために,Unlearning Usability Attackを導入する。
論文 参考訳(メタデータ) (2024-07-06T15:42:28Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。