論文の概要: A Non-Parametric Test to Detect Data-Copying in Generative Models
- arxiv url: http://arxiv.org/abs/2004.05675v1
- Date: Sun, 12 Apr 2020 18:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:03:41.891861
- Title: A Non-Parametric Test to Detect Data-Copying in Generative Models
- Title(参考訳): 生成モデルにおけるデータコピー検出のための非パラメトリックテスト
- Authors: Casey Meehan, Kamalika Chaudhuri, Sanjoy Dasgupta
- Abstract要約: 生成モデルはトレーニングサンプルを記憶し、その小さなバリエーションを出力する。
トレーニングセット,対象分布から分離したサンプル,モデルから生成されたサンプルを用いて,データコピーを検出するための3つのサンプル非パラメトリックテストを提供する。
- 参考スコア(独自算出の注目度): 31.596356325042038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting overfitting in generative models is an important challenge in
machine learning. In this work, we formalize a form of overfitting that we call
{\em{data-copying}} -- where the generative model memorizes and outputs
training samples or small variations thereof. We provide a three sample
non-parametric test for detecting data-copying that uses the training set, a
separate sample from the target distribution, and a generated sample from the
model, and study the performance of our test on several canonical models and
datasets.
For code \& examples, visit https://github.com/casey-meehan/data-copying
- Abstract(参考訳): 生成モデルにおける過剰フィッティングの検出は、機械学習において重要な課題である。
本研究では, 生成モデルが記憶し, トレーニングサンプル又はその小さなバリエーションを出力する, {\em{data-copying}} と呼ばれるオーバーフィッティングの形式を定式化する。
トレーニングセット,対象分布から分離したサンプル,およびモデルから生成されたサンプルを用いて,データコピーを検出するための3つのサンプル非パラメトリックテストを行い,いくつかの標準モデルとデータセット上でテストの性能について検討する。
コード \&例については、https://github.com/casey-meehan/data-copyingを参照してください。
関連論文リスト
- Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Importance of Disjoint Sampling in Conventional and Transformer Models for Hyperspectral Image Classification [2.1223532600703385]
本稿では、ハイパースペクトル画像分類(HSIC)タスク上でSOTAモデルをトレーニングするための革新的な不整合サンプリング手法を提案する。
重なりのないトレーニング,検証,テストデータを分離することにより,提案手法は,トレーニングや検証中に露出していないピクセルをどの程度正確に分類できるかを,より公平に評価することができる。
この厳密な手法は、SOTAモデルの発展と、ハイパースペクトルセンサーを用いた大規模陸地マッピングへの実際の応用に欠かせない。
論文 参考訳(メタデータ) (2024-04-23T11:40:52Z) - Test-Time Adaptation for Point Cloud Upsampling Using Meta-Learning [17.980649681325406]
本稿では,点群アップサンプリングのモデル一般性を高めるためのテスト時間適応手法を提案する。
提案手法はメタラーニングを利用してテスト時間適応のためのネットワークパラメータを明示的に学習する。
我々のフレームワークは汎用的であり、既存のバックボーンネットワークをポイントクラウドのアップサンプリングにプラグイン・アンド・プレイで適用することができる。
論文 参考訳(メタデータ) (2023-08-31T06:44:59Z) - Data-Copying in Generative Models: A Formal Framework [34.84064423819405]
データコピー(data-copying)と呼ばれる生成モデルの記憶のための形式的な枠組みがMeehanらによって提案された。
我々は、それらのフレームワークが特定の種類のブラタント記憶の検出に失敗する可能性があることを示すために、彼らの作業の上に構築する。
本研究では,データコピーを検出する手法を提案し,十分なデータが得られれば高い確率で動作することを示す。
論文 参考訳(メタデータ) (2023-02-25T22:31:01Z) - D\'etection d'Objets dans les documents num\'eris\'es par r\'eseaux de
neurones profonds [0.0]
本研究では,テキスト行の検出,動作分割,筆記支援など,文書レイアウト解析に関連する複数のタスクについて検討する。
2つの異なるアプローチに従う2つのディープニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2023-01-27T14:45:45Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Learning to Generalize across Domains on Single Test Samples [126.9447368941314]
単体テストサンプルでドメインをまたいで一般化することを学ぶ。
変分ベイズ推論問題として単検体への適応を定式化する。
我々のモデルは、ドメインの一般化のための複数のベンチマークにおいて、最先端のメソッドよりも少なくとも同等で、より優れたパフォーマンスを達成します。
論文 参考訳(メタデータ) (2022-02-16T13:21:04Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。