論文の概要: Finding Meaningful Distributions of ML Black-boxes under Forensic
Investigation
- arxiv url: http://arxiv.org/abs/2305.05869v1
- Date: Wed, 10 May 2023 03:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 14:37:27.885073
- Title: Finding Meaningful Distributions of ML Black-boxes under Forensic
Investigation
- Title(参考訳): 法医学的調査によるMLブラックボックスの意味分布の探索
- Authors: Jiyi Zhang, Han Fang, Hwee Kuan Lee, Ee-Chien Chang
- Abstract要約: ドキュメンテーションの不十分なニューラルネットワークモデルを考えると、モデルのデータドメインを知りたがっている法医学研究者の視点を捉えます。
本稿では、ImageNetなどの包括的コーパスを利用して意味のある分布を選択することで、この問題を解決することを提案する。
私たちのゴールは、与えられたモデルのためにコーパスからサンプルのセットを選択することです。
- 参考スコア(独自算出の注目度): 25.79728190384834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a poorly documented neural network model, we take the perspective of a
forensic investigator who wants to find out the model's data domain (e.g.
whether on face images or traffic signs). Although existing methods such as
membership inference and model inversion can be used to uncover some
information about an unknown model, they still require knowledge of the data
domain to start with. In this paper, we propose solving this problem by
leveraging on comprehensive corpus such as ImageNet to select a meaningful
distribution that is close to the original training distribution and leads to
high performance in follow-up investigations. The corpus comprises two
components, a large dataset of samples and meta information such as
hierarchical structure and textual information on the samples. Our goal is to
select a set of samples from the corpus for the given model. The core of our
method is an objective function that considers two criteria on the selected
samples: the model functional properties (derived from the dataset), and
semantics (derived from the metadata). We also give an algorithm to efficiently
search the large space of all possible subsets w.r.t. the objective function.
Experimentation results show that the proposed method is effective. For
example, cloning a given model (originally trained with CIFAR-10) by using
Caltech 101 can achieve 45.5% accuracy. By using datasets selected by our
method, the accuracy is improved to 72.0%.
- Abstract(参考訳): ドキュメンテーションの不十分なニューラルネットワークモデルを考えると、モデルのデータドメイン(例えば、顔画像や交通標識など)を知りたがっている法医学研究者の視点を捉えます。
メンバーシップ推論やモデルインバージョンといった既存のメソッドは、未知のモデルに関する情報を明らかにするのに使うことができるが、データドメインに関する知識が必要である。
本稿では,imagenet のような包括的コーパスを用いて,学習分布に近い有意義な分布を選択でき,追従調査において高い性能が得られるような問題を解くことを提案する。
コーパスは、サンプルの大きなデータセットと階層構造のようなメタ情報とサンプルに関するテキスト情報という2つのコンポーネントから構成される。
私たちのゴールは、与えられたモデルのコーパスからサンプルのセットを選択することです。
本手法の核心は,選択したサンプルの2つの基準,すなわちモデル機能特性(データセット由来)と意味論(メタデータ由来)を考慮した客観的関数である。
また、対象関数の全ての可能な部分集合の大きな空間を効率的に探索するアルゴリズムを与える。
実験の結果,提案手法の有効性が示された。
例えば、Caltech 101を使って与えられたモデルのクローン(元々はCIFAR-10で訓練されていた)は45.5%の精度が得られる。
提案手法で選択したデータセットを用いて精度を72.0%に向上する。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Example-Based Explainable AI and its Application for Remote Sensing
Image Classification [0.0]
入力データに類似したトレーニングデータセットのインスタンスの例を示す。
センチネル2衛星からのリモートセンシング画像データセットを用いて、この概念が実証された。
論文 参考訳(メタデータ) (2023-02-03T03:48:43Z) - Spectral goodness-of-fit tests for complete and partial network data [1.7188280334580197]
我々は、最近のランダム行列理論の結果を用いて、ダイアディックデータに対する一般的な適合性テスト(英語版)を導出する。
提案手法は,特定の関心モデルに適用された場合,パラメータ選択の単純かつ高速な方法であることを示す。
提案手法は, コミュニティ検出アルゴリズムの改良に繋がる。
論文 参考訳(メタデータ) (2021-06-17T17:56:30Z) - Self-Supervision based Task-Specific Image Collection Summarization [3.115375810642661]
本稿では,意味情報と自己スーパービジョンを用いたタスク固有画像コーパス要約手法を提案する。
特徴生成ネットワークとして,分類に基づくWasserstein generation adversarial Network (WGAN) を用いる。
モデルは、セマンティック埋め込み空間におけるK平均クラスタリングを用いて、推論時に要約を生成する。
論文 参考訳(メタデータ) (2020-12-19T10:58:04Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。