論文の概要: Radioactive data: tracing through training
- arxiv url: http://arxiv.org/abs/2002.00937v1
- Date: Mon, 3 Feb 2020 18:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:02:16.697959
- Title: Radioactive data: tracing through training
- Title(参考訳): 放射能データ:トレーニングによる追跡
- Authors: Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, Herv\'e
J\'egou
- Abstract要約: 本稿では,このデータセットに認識不能な変化を生じさせる新しい手法であるEmphradioactive dataを提案する。
訓練されたモデルにより, 放射能データの利用を検知し, 信頼度(p-値)のレベルを提供する。
提案手法はディープネットワーク最適化におけるデータ拡張とバックドア性に対して堅牢である。
- 参考スコア(独自算出の注目度): 130.2266320167683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We want to detect whether a particular image dataset has been used to train a
model. We propose a new technique, \emph{radioactive data}, that makes
imperceptible changes to this dataset such that any model trained on it will
bear an identifiable mark. The mark is robust to strong variations such as
different architectures or optimization methods. Given a trained model, our
technique detects the use of radioactive data and provides a level of
confidence (p-value). Our experiments on large-scale benchmarks (Imagenet),
using standard architectures (Resnet-18, VGG-16, Densenet-121) and training
procedures, show that we can detect usage of radioactive data with high
confidence (p<10^-4) even when only 1% of the data used to trained our model is
radioactive. Our method is robust to data augmentation and the stochasticity of
deep network optimization. As a result, it offers a much higher signal-to-noise
ratio than data poisoning and backdoor methods.
- Abstract(参考訳): 特定のイメージデータセットがモデルのトレーニングに使用されたかどうかを知りたいのです。
我々は,このデータセットに対して,トレーニングしたモデルに識別可能なマークが付くように,認識不能な変更を行う新しい手法であるemph{radioactive data}を提案する。
マークは、異なるアーキテクチャや最適化メソッドのような強いバリエーションに堅牢である。
訓練されたモデルにより, 放射能データの利用を検知し, 信頼性(p値)のレベルを提供する。
標準アーキテクチャ (resnet-18, vgg-16, densenet-121) を用いた大規模ベンチマーク (imagenet) 実験では, モデルに使用したデータの1%のみが放射性である場合でも, 高い信頼性 (p<10^-4) で放射性データの利用を検出できることを示した。
本手法は,データ拡張とディープネットワーク最適化の確率性に頑健である。
その結果、データ中毒やバックドア法よりもはるかに高い信号対雑音比が得られる。
関連論文リスト
- Learning from Convolution-based Unlearnable Datastes [5.332412565926725]
ConlearnベースのUnlearnable DAtaset(CUDA)メソッドは、データセット内のすべてのイメージにクラスワイドなぼかしを適用することによって、データを学習不能にすることを目的としている。
本研究は,画像のシャープ化と周波数フィルタリングにより,データが未学習のままであるか否かを評価する。
学習不能なデータを用いて学習したモデルに対して,逆行訓練によるテスト精度の大幅な向上を観察する。
論文 参考訳(メタデータ) (2024-11-04T01:51:50Z) - Improved detection of discarded fish species through BoxAL active learning [0.2544632696242629]
本研究では,より高速なR-CNNオブジェクト検出モデルの認識精度を推定する,BoxALという能動的学習手法を提案する。
この方法では、未ラベルのプールから最も不確実なトレーニングイメージを選択し、オブジェクト検出モデルのトレーニングに使用することができる。
また,本研究では,サンプル化した新データが,未ラベルデータよりもトレーニングに有用であることが確認された。
論文 参考訳(メタデータ) (2024-10-07T10:01:30Z) - Data-Independent Operator: A Training-Free Artifact Representation
Extractor for Generalizable Deepfake Detection [105.9932053078449]
本研究では,より一般的な人工物表現を捉えるのに,小型かつトレーニング不要なフィルタが十分であることを示す。
トレーニングソースとテストソースの両方に不偏があるため、未確認ソースに対して魅力的な改善を実現するために、Data-Independent Operator (DIO)と定義する。
我々の検出器は13.3%の大幅な改善を実現し、新しい最先端の性能を確立した。
論文 参考訳(メタデータ) (2024-03-11T15:22:28Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Anomaly Detection with Ensemble of Encoder and Decoder [2.8199078343161266]
電力網における異常検出は、電力系統に対するサイバー攻撃による異常を検出し、識別することを目的としている。
本稿では,複数のエンコーダとデコーダを用いて正規サンプルのデータ分布をモデル化し,新しい異常検出手法を提案する。
ネットワーク侵入と電力系統データセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-03-11T15:49:29Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。