論文の概要: Protecting Publicly Available Data With Machine Learning Shortcuts
- arxiv url: http://arxiv.org/abs/2310.19381v1
- Date: Mon, 30 Oct 2023 09:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:57:32.159052
- Title: Protecting Publicly Available Data With Machine Learning Shortcuts
- Title(参考訳): 機械学習ショートカットによる公開データの保護
- Authors: Nicolas M. M\"uller, Maximilian Burgert, Pascal Debus, Jennifer
Williams, Philip Sperl, Konstantin B\"ottinger
- Abstract要約: 簡単なショートカットであっても、説明可能なAI手法で検出することは困難であることを示す。
そして、この事実を利用して、オンラインデータベースをクローラーから守るアプローチを設計します。
MLショートカットを意図的に追加することで、抑止力を創出できることが示される。
- 参考スコア(独自算出の注目度): 3.8709855706783105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-learning (ML) shortcuts or spurious correlations are artifacts in
datasets that lead to very good training and test performance but severely
limit the model's generalization capability. Such shortcuts are insidious
because they go unnoticed due to good in-domain test performance. In this
paper, we explore the influence of different shortcuts and show that even
simple shortcuts are difficult to detect by explainable AI methods. We then
exploit this fact and design an approach to defend online databases against
crawlers: providers such as dating platforms, clothing manufacturers, or used
car dealers have to deal with a professionalized crawling industry that grabs
and resells data points on a large scale. We show that a deterrent can be
created by deliberately adding ML shortcuts. Such augmented datasets are then
unusable for ML use cases, which deters crawlers and the unauthorized use of
data from the internet. Using real-world data from three use cases, we show
that the proposed approach renders such collected data unusable, while the
shortcut is at the same time difficult to notice in human perception. Thus, our
proposed approach can serve as a proactive protection against illegitimate data
crawling.
- Abstract(参考訳): 機械学習(ml)ショートカットやスプリアス相関はデータセット内のアーティファクトであり、非常に優れたトレーニングとテストパフォーマンスをもたらすが、モデルの一般化能力は著しく制限される。
このようなショートカットはドメイン内テストパフォーマンスの良さから気づかないほど不気味なものです。
本稿では,異なるショートカットの影響について検討し,簡単なショートカットであっても説明可能なAI手法により検出が難しいことを示す。
私たちはこの事実を利用して、オンラインデータベースをクローラーから守るためのアプローチを設計します。デートプラットフォーム、衣料品メーカー、中古車ディーラーなどのプロバイダは、大規模にデータポイントをつかんで再送する専門化されたクローリング業界を扱わなければなりません。
MLショートカットを意図的に追加することで、抑止力を実現できることを示す。
このようなデータセットはMLのユースケースでは使用できないため、クローラやインターネットからの不正なデータの使用を回避できる。
3つのユースケースから得られた実世界データを用いて,提案手法では収集したデータは使用できないが,ショートカットは人間の知覚では認識が困難であることを示す。
したがって,提案手法は不正なデータクローリングに対する積極的な保護となる。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - What Can We Learn from Unlearnable Datasets? [107.12337511216228]
学習不可能なデータセットは、ディープニューラルネットワークの一般化を防ぐことによって、データのプライバシを保護する可能性がある。
学習不可能なデータセットでトレーニングされたニューラルネットワークは、一般化には役に立たない単純なルールであるショートカットのみを学ぶと広く信じられている。
これとは対照的に,ネットワークは高いテスト性能を期待できる有用な特徴を実際に学習することができ,画像保護が保証されていないことを示唆している。
論文 参考訳(メタデータ) (2023-05-30T17:41:35Z) - Shortcut Detection with Variational Autoencoders [1.3174512123890016]
可変オートエンコーダ(VAE)を利用した画像および音声データセットのショートカット検出手法を提案する。
VAEの潜在空間における特徴の分散により、データセット内の特徴目標相関を発見し、MLショートカットに対して半自動評価することが可能になる。
本手法の適用性を実世界のいくつかのデータセットに適用し,これまで発見されていないショートカットを同定する。
論文 参考訳(メタデータ) (2023-02-08T18:26:10Z) - Localized Shortcut Removal [4.511561231517167]
保持されたテストデータのハイパフォーマンスは、モデルを一般化したり、意味のあるものを学ぶことを必ずしも示さない。
これはしばしば、機械学習のショートカットの存在が原因である。
我々は、逆向きに訓練されたレンズを用いて、画像中の非常に予測的だが意味的に無関係な手がかりを検出し、排除する。
論文 参考訳(メタデータ) (2022-11-24T13:05:33Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Monitoring Shortcut Learning using Mutual Information [16.17600110257266]
ショートカット学習は、素早い相関を含まない実世界のデータに基づいて評価される。
実験により、MIはメートル法ネットワークのショートカットネットワークとして使用できることが示された。
論文 参考訳(メタデータ) (2022-06-27T03:55:23Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Can We Achieve More with Less? Exploring Data Augmentation for Toxic
Comment Classification [0.0]
本稿では、機械学習における最大の制限の一つに対処する。
我々は、データ拡張技術と機械学習アルゴリズムの組み合わせを利用して、小さなデータセットから高い精度の分類器を構築することができるかどうかを考察する。
論文 参考訳(メタデータ) (2020-07-02T04:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。