論文の概要: Understanding (Un)Intended Memorization in Text-to-Image Generative
Models
- arxiv url: http://arxiv.org/abs/2312.07550v1
- Date: Wed, 6 Dec 2023 19:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:35:04.375958
- Title: Understanding (Un)Intended Memorization in Text-to-Image Generative
Models
- Title(参考訳): テキスト・画像生成モデルにおける意図しない記憶の理解
- Authors: Ali Naseh, Jaechul Roh, Amir Houmansadr
- Abstract要約: 本稿では,テキスト・ツー・イメージ・モデルに特化して記憶の特殊定義を導入し,ユーザの期待に応じて3つの異なるタイプに分類する。
本稿では,ユーザプライバシとモデル出力の生成品質のバランスをとることの重要性を強調し,意図しない記憶と意図しない記憶の微妙な区別について検討する。
- 参考スコア(独自算出の注目度): 16.447035745151428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine learning, especially text-to-image models like Stable
Diffusion and DALL-E 3, has gained significance for transforming text into
detailed images.
Despite their growing use and remarkable generative capabilities, there is a
pressing need for a detailed examination of these models' behavior,
particularly with respect to memorization. Historically, memorization in
machine learning has been context-dependent, with diverse definitions emerging
from classification tasks to complex models like Large Language Models (LLMs)
and Diffusion models. Yet, a definitive concept of memorization that aligns
with the intricacies of text-to-image synthesis remains elusive. This
understanding is vital as memorization poses privacy risks yet is essential for
meeting user expectations, especially when generating representations of
underrepresented entities. In this paper, we introduce a specialized definition
of memorization tailored to text-to-image models, categorizing it into three
distinct types according to user expectations. We closely examine the subtle
distinctions between intended and unintended memorization, emphasizing the
importance of balancing user privacy with the generative quality of the model
outputs. Using the Stable Diffusion model, we offer examples to validate our
memorization definitions and clarify their application.
- Abstract(参考訳): マルチモーダル機械学習、特にStable DiffusionやDALL-E 3のようなテキストから画像への変換モデルは、テキストを詳細な画像に変換する上で重要である。
それらの使用量の増加と顕著な生成能力にもかかわらず、これらのモデルの振る舞い、特に記憶に関する詳細な検証が必要である。
歴史的に、機械学習の記憶は文脈に依存しており、分類タスクからLarge Language Models (LLM)やDiffusion Modelのような複雑なモデルまで様々に定義されている。
しかし、テキストから画像への合成の複雑さと一致する暗記という決定的な概念はいまだに解明されていない。
この理解は、記憶化がユーザーの期待を満たすために、特に表現不足のエンティティの表現を生成する際には、プライバシー上のリスクを生じるため不可欠である。
本稿では,テキスト対画像モデルに合わせた暗記の専用定義を提案し,ユーザの期待に応じて3つのタイプに分類する。
ユーザのプライバシとモデル出力の生成的品質のバランスの重要性を強調しながら,意図しない記憶と意図しない記憶の微妙な区別を詳細に検討した。
安定拡散モデルを用いて,記憶の定義を検証し,それらの応用を明らかにする例を示す。
関連論文リスト
- Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models [39.607005089747936]
テキスト・画像拡散モデルにおける記憶の実際的解析を行う。
暗記に必要な3つの条件,それぞれ類似性,存在,および確率を同定する。
次に,モデルの予測誤差と画像複製の相関関係を明らかにする。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - D\'ej\`a Vu Memorization in Vision-Language Models [44.40740575667872]
視覚言語モデル(VLM)における記憶量測定のための新しい手法を提案する。
モデルでは、相関や画像キャプションから推測できる範囲を超えて、トレーニング画像中の個々のオブジェクトに関する情報が実際に保持されていることを示す。
サンプルおよび集団レベルでのd'eja vuメモリ化を評価し,最大5000万枚の画像キャプチャーペアで訓練したOpenCLIPにとって重要であることを示す。
論文 参考訳(メタデータ) (2024-02-03T09:55:35Z) - Deep Variational Privacy Funnel: General Modeling with Applications in
Face Recognition [3.351714665243138]
エンド・ツー・エンド・トレーニング・フレームワークを用いたプライバシー保護表現学習手法を開発した。
我々はこのモデルを最先端の顔認識システムに適用する。
論文 参考訳(メタデータ) (2024-01-26T11:32:53Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。