論文の概要: On Training Sample Memorization: Lessons from Benchmarking Generative
Modeling with a Large-scale Competition
- arxiv url: http://arxiv.org/abs/2106.03062v1
- Date: Sun, 6 Jun 2021 08:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 20:46:14.691478
- Title: On Training Sample Memorization: Lessons from Benchmarking Generative
Modeling with a Large-scale Competition
- Title(参考訳): トレーニングサンプル記憶:大規模競争によるベンチマーク生成モデルからの教訓
- Authors: Ching-Yuan Bai, Hsuan-Tien Lin, Colin Raffel, and Wendy Chih-wen Kan
- Abstract要約: 本研究では,生成的モデリングコンペティションを設計,展開することで,メトリクスのゲーム性を評価する。
参加者間の競争力は, 生成モデルにおける意図的, 非意図的記憶の両面を調査することを可能にした。
意図的な暗記を検出するため,新しい暗記対応指標として,暗記インフォームドFr'echet Inception Distance'(MiFID)を提案する。
- 参考スコア(独自算出の注目度): 27.058164653689605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent developments on generative models for natural images have relied
on heuristically-motivated metrics that can be easily gamed by memorizing a
small sample from the true distribution or training a model directly to improve
the metric. In this work, we critically evaluate the gameability of these
metrics by designing and deploying a generative modeling competition. Our
competition received over 11000 submitted models. The competitiveness between
participants allowed us to investigate both intentional and unintentional
memorization in generative modeling. To detect intentional memorization, we
propose the ``Memorization-Informed Fr\'echet Inception Distance'' (MiFID) as a
new memorization-aware metric and design benchmark procedures to ensure that
winning submissions made genuine improvements in perceptual quality.
Furthermore, we manually inspect the code for the 1000 top-performing models to
understand and label different forms of memorization. Our analysis reveals that
unintentional memorization is a serious and common issue in popular generative
models. The generated images and our memorization labels of those models as
well as code to compute MiFID are released to facilitate future studies on
benchmarking generative models.
- Abstract(参考訳): 自然画像の生成モデルに関する最近の多くの研究は、真の分布から小さなサンプルを記憶したり、モデルを直接訓練することで容易にゲーム化できる、ヒューリスティックな動機付けのメトリクスに依存している。
本研究では,生成的モデリングコンペティタの設計と展開を通じて,これらのメトリクスのゲーム性を評価する。
コンペには1万1000以上の応募モデルが集まった。
参加者間の競争力は,生成モデルにおける意図的記憶と意図的記憶の両方を調査することができた。
意図的な暗記を検出するため,新たな暗記基準および設計ベンチマーク手法として,'Memorization-Informed Fr\'echet Inception Distance'' (MiFID) を提案する。
さらに、1000のトップパフォーマンスモデルのコードを手作業で検査し、異なる記憶形態を理解しラベル付けする。
解析の結果,意図しない記憶は一般的な生成モデルでは深刻な問題であることがわかった。
これらのモデルの生成したイメージと記憶ラベル、およびmifidを計算するコードのリリースにより、ベンチマーク生成モデルの将来の研究が容易になる。
関連論文リスト
- A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - Embedding Space Selection for Detecting Memorization and Fingerprinting in Generative Models [45.83830252441126]
GAN(Generative Adversarial Networks)と拡散モデル(Diffusion Models)は画期的な技術となり、芸術創造から医療まで様々な分野のイノベーションを推進してきた。
それらの可能性にもかかわらず、これらのモデルはデータ記憶の重大な課題に直面し、プライバシと生成されたコンテンツの完全性にリスクをもたらす。
エンコーダ層埋め込みから算出した暗記スコアについて検討し, 埋め込み空間内の試料間距離を計測する。
論文 参考訳(メタデータ) (2024-07-30T19:52:49Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。
研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。
データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文 参考訳(メタデータ) (2024-06-01T15:47:13Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文 参考訳(メタデータ) (2023-06-07T18:00:00Z) - Mode-Aware Continual Learning for Conditional Generative Adversarial
Networks [27.28511396131235]
本稿では,条件付き生成対向ネットワークのための新しい連続学習手法を提案する。
まず、ジェネレータは、その後の再生のための既存のモードのサンプルを生成する。
判別器はモード類似度尺度を計算するのに使用される。
目標モードのラベルを生成し、このセット内のラベルの重み付き平均として付与する。
論文 参考訳(メタデータ) (2023-05-19T03:00:31Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。