Fugu-MT 論文翻訳(概要): On Training Sample Memorization: Lessons from Benchmarking Generative Modeling with a Large-scale Competition

論文の概要: On Training Sample Memorization: Lessons from Benchmarking Generative Modeling with a Large-scale Competition

arxiv url: http://arxiv.org/abs/2106.03062v1
Date: Sun, 6 Jun 2021 08:24:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-13 20:46:14.691478
Title: On Training Sample Memorization: Lessons from Benchmarking Generative Modeling with a Large-scale Competition
Title（参考訳）: トレーニングサンプル記憶:大規模競争によるベンチマーク生成モデルからの教訓
Authors: Ching-Yuan Bai, Hsuan-Tien Lin, Colin Raffel, and Wendy Chih-wen Kan
Abstract要約: 本研究では,生成的モデリングコンペティションを設計,展開することで,メトリクスのゲーム性を評価する。参加者間の競争力は, 生成モデルにおける意図的, 非意図的記憶の両面を調査することを可能にした。意図的な暗記を検出するため,新しい暗記対応指標として,暗記インフォームドFr'echet Inception Distance'(MiFID)を提案する。
参考スコア（独自算出の注目度）: 27.058164653689605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many recent developments on generative models for natural images have relied on heuristically-motivated metrics that can be easily gamed by memorizing a small sample from the true distribution or training a model directly to improve the metric. In this work, we critically evaluate the gameability of these metrics by designing and deploying a generative modeling competition. Our competition received over 11000 submitted models. The competitiveness between participants allowed us to investigate both intentional and unintentional memorization in generative modeling. To detect intentional memorization, we propose the ``Memorization-Informed Fr\'echet Inception Distance'' (MiFID) as a new memorization-aware metric and design benchmark procedures to ensure that winning submissions made genuine improvements in perceptual quality. Furthermore, we manually inspect the code for the 1000 top-performing models to understand and label different forms of memorization. Our analysis reveals that unintentional memorization is a serious and common issue in popular generative models. The generated images and our memorization labels of those models as well as code to compute MiFID are released to facilitate future studies on benchmarking generative models.
Abstract（参考訳）: 自然画像の生成モデルに関する最近の多くの研究は、真の分布から小さなサンプルを記憶したり、モデルを直接訓練することで容易にゲーム化できる、ヒューリスティックな動機付けのメトリクスに依存している。本研究では,生成的モデリングコンペティタの設計と展開を通じて,これらのメトリクスのゲーム性を評価する。コンペには1万1000以上の応募モデルが集まった。参加者間の競争力は,生成モデルにおける意図的記憶と意図的記憶の両方を調査することができた。意図的な暗記を検出するため,新たな暗記基準および設計ベンチマーク手法として,'Memorization-Informed Fr\'echet Inception Distance'' (MiFID) を提案する。さらに、1000のトップパフォーマンスモデルのコードを手作業で検査し、異なる記憶形態を理解しラベル付けする。解析の結果,意図しない記憶は一般的な生成モデルでは深刻な問題であることがわかった。これらのモデルの生成したイメージと記憶ラベル、およびmifidを計算するコードのリリースにより、ベンチマーク生成モデルの将来の研究が容易になる。

関連論文リスト

GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models [31.92526915009259]
拡散モデルは非常に高品質なサンプルを生成する能力で知られている。最近のメモリ緩和法は、主にテキストモダリティの文脈における問題に対処している。本稿では,視覚的モダリティの観点からの拡散モデルの新たな手法を提案する。
論文参考訳（メタデータ） (2025-02-13T15:56:44Z)
A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文参考訳（メタデータ） (2024-10-31T18:09:01Z)
Embedding Space Selection for Detecting Memorization and Fingerprinting in Generative Models [45.83830252441126]
GAN(Generative Adversarial Networks)と拡散モデル(Diffusion Models)は画期的な技術となり、芸術創造から医療まで様々な分野のイノベーションを推進してきた。それらの可能性にもかかわらず、これらのモデルはデータ記憶の重大な課題に直面し、プライバシと生成されたコンテンツの完全性にリスクをもたらす。エンコーダ層埋め込みから算出した暗記スコアについて検討し, 埋め込み空間内の試料間距離を計測する。
論文参考訳（メタデータ） (2024-07-30T19:52:49Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文参考訳（メタデータ） (2024-06-01T15:47:13Z)
Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文参考訳（メタデータ） (2024-03-17T01:27:00Z)
Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文参考訳（メタデータ） (2023-12-25T21:25:55Z)
Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-06-12T15:52:02Z)
Exposing flaws of generative model evaluation metrics and their unfair treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文参考訳（メタデータ） (2023-06-07T18:00:00Z)
Mode-Aware Continual Learning for Conditional Generative Adversarial Networks [27.28511396131235]
本稿では,条件付き生成対向ネットワークのための新しい連続学習手法を提案する。まず、ジェネレータは、その後の再生のための既存のモードのサンプルを生成する。判別器はモード類似度尺度を計算するのに使用される。目標モードのラベルを生成し、このセット内のラベルの重み付き平均として付与する。
論文参考訳（メタデータ） (2023-05-19T03:00:31Z)
A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文参考訳（メタデータ） (2022-10-10T08:27:28Z)
Automatic Recall Machines: Internal Replay, Continual Learning and the Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文参考訳（メタデータ） (2020-06-22T15:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。