論文の概要: On Training Sample Memorization: Lessons from Benchmarking Generative
Modeling with a Large-scale Competition
- arxiv url: http://arxiv.org/abs/2106.03062v1
- Date: Sun, 6 Jun 2021 08:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 20:46:14.691478
- Title: On Training Sample Memorization: Lessons from Benchmarking Generative
Modeling with a Large-scale Competition
- Title(参考訳): トレーニングサンプル記憶:大規模競争によるベンチマーク生成モデルからの教訓
- Authors: Ching-Yuan Bai, Hsuan-Tien Lin, Colin Raffel, and Wendy Chih-wen Kan
- Abstract要約: 本研究では,生成的モデリングコンペティションを設計,展開することで,メトリクスのゲーム性を評価する。
参加者間の競争力は, 生成モデルにおける意図的, 非意図的記憶の両面を調査することを可能にした。
意図的な暗記を検出するため,新しい暗記対応指標として,暗記インフォームドFr'echet Inception Distance'(MiFID)を提案する。
- 参考スコア(独自算出の注目度): 27.058164653689605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent developments on generative models for natural images have relied
on heuristically-motivated metrics that can be easily gamed by memorizing a
small sample from the true distribution or training a model directly to improve
the metric. In this work, we critically evaluate the gameability of these
metrics by designing and deploying a generative modeling competition. Our
competition received over 11000 submitted models. The competitiveness between
participants allowed us to investigate both intentional and unintentional
memorization in generative modeling. To detect intentional memorization, we
propose the ``Memorization-Informed Fr\'echet Inception Distance'' (MiFID) as a
new memorization-aware metric and design benchmark procedures to ensure that
winning submissions made genuine improvements in perceptual quality.
Furthermore, we manually inspect the code for the 1000 top-performing models to
understand and label different forms of memorization. Our analysis reveals that
unintentional memorization is a serious and common issue in popular generative
models. The generated images and our memorization labels of those models as
well as code to compute MiFID are released to facilitate future studies on
benchmarking generative models.
- Abstract(参考訳): 自然画像の生成モデルに関する最近の多くの研究は、真の分布から小さなサンプルを記憶したり、モデルを直接訓練することで容易にゲーム化できる、ヒューリスティックな動機付けのメトリクスに依存している。
本研究では,生成的モデリングコンペティタの設計と展開を通じて,これらのメトリクスのゲーム性を評価する。
コンペには1万1000以上の応募モデルが集まった。
参加者間の競争力は,生成モデルにおける意図的記憶と意図的記憶の両方を調査することができた。
意図的な暗記を検出するため,新たな暗記基準および設計ベンチマーク手法として,'Memorization-Informed Fr\'echet Inception Distance'' (MiFID) を提案する。
さらに、1000のトップパフォーマンスモデルのコードを手作業で検査し、異なる記憶形態を理解しラベル付けする。
解析の結果,意図しない記憶は一般的な生成モデルでは深刻な問題であることがわかった。
これらのモデルの生成したイメージと記憶ラベル、およびmifidを計算するコードのリリースにより、ベンチマーク生成モデルの将来の研究が容易になる。
関連論文リスト
- Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Negotiated Representations for Machine Mearning Application [0.0]
オーバーフィッティング(Overfitting)は、機械学習モデルが長時間トレーニングされ、提供されたトレーニングラベルに対するトレーニングサンプルの正確な適合度に過度にフォーカスされた場合に発生する現象である。
本稿では,事前に決定されたクラスラベルを用いて,サンプルの出力表現を交渉可能にすることによって,機械学習モデルの分類精度を高める手法を提案する。
論文 参考訳(メタデータ) (2023-11-19T19:53:49Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文 参考訳(メタデータ) (2023-06-07T18:00:00Z) - Mode-Aware Continual Learning for Conditional Generative Adversarial
Networks [27.28511396131235]
本稿では,条件付き生成対向ネットワークのための新しい連続学習手法を提案する。
まず、ジェネレータは、その後の再生のための既存のモードのサンプルを生成する。
判別器はモード類似度尺度を計算するのに使用される。
目標モードのラベルを生成し、このセット内のラベルの重み付き平均として付与する。
論文 参考訳(メタデータ) (2023-05-19T03:00:31Z) - Reducing Training Sample Memorization in GANs by Training with
Memorization Rejection [80.0916819303573]
本稿では,トレーニング中のトレーニングサンプルのほぼ重複する生成サンプルを拒否する学習手法であるリジェクション記憶法を提案する。
我々のスキームは単純で汎用的であり、任意のGANアーキテクチャに直接適用することができる。
論文 参考訳(メタデータ) (2022-10-21T20:17:50Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Masked Measurement Prediction: Learning to Jointly Predict Quantities
and Units from Textual Context [27.510965119815058]
そこで本研究では,マスク付きテキストに関連付けられたユニットとともに,モデルが数値を再構成することを学ぶ,新しいタスクであるMasked Measurement Prediction (MMP)を導入する。
MMPは、新しい数値的なモデルのトレーニングだけでなく、既存のシステムの数値性の評価にも有用である。
本稿では,GeMM(Generative Masked Measurement)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T04:42:13Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。