論文の概要: Understanding (Un)Intended Memorization in Text-to-Image Generative
Models
- arxiv url: http://arxiv.org/abs/2312.07550v1
- Date: Wed, 6 Dec 2023 19:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:35:04.375958
- Title: Understanding (Un)Intended Memorization in Text-to-Image Generative
Models
- Title(参考訳): テキスト・画像生成モデルにおける意図しない記憶の理解
- Authors: Ali Naseh, Jaechul Roh, Amir Houmansadr
- Abstract要約: 本稿では,テキスト・ツー・イメージ・モデルに特化して記憶の特殊定義を導入し,ユーザの期待に応じて3つの異なるタイプに分類する。
本稿では,ユーザプライバシとモデル出力の生成品質のバランスをとることの重要性を強調し,意図しない記憶と意図しない記憶の微妙な区別について検討する。
- 参考スコア(独自算出の注目度): 16.447035745151428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine learning, especially text-to-image models like Stable
Diffusion and DALL-E 3, has gained significance for transforming text into
detailed images.
Despite their growing use and remarkable generative capabilities, there is a
pressing need for a detailed examination of these models' behavior,
particularly with respect to memorization. Historically, memorization in
machine learning has been context-dependent, with diverse definitions emerging
from classification tasks to complex models like Large Language Models (LLMs)
and Diffusion models. Yet, a definitive concept of memorization that aligns
with the intricacies of text-to-image synthesis remains elusive. This
understanding is vital as memorization poses privacy risks yet is essential for
meeting user expectations, especially when generating representations of
underrepresented entities. In this paper, we introduce a specialized definition
of memorization tailored to text-to-image models, categorizing it into three
distinct types according to user expectations. We closely examine the subtle
distinctions between intended and unintended memorization, emphasizing the
importance of balancing user privacy with the generative quality of the model
outputs. Using the Stable Diffusion model, we offer examples to validate our
memorization definitions and clarify their application.
- Abstract(参考訳): マルチモーダル機械学習、特にStable DiffusionやDALL-E 3のようなテキストから画像への変換モデルは、テキストを詳細な画像に変換する上で重要である。
それらの使用量の増加と顕著な生成能力にもかかわらず、これらのモデルの振る舞い、特に記憶に関する詳細な検証が必要である。
歴史的に、機械学習の記憶は文脈に依存しており、分類タスクからLarge Language Models (LLM)やDiffusion Modelのような複雑なモデルまで様々に定義されている。
しかし、テキストから画像への合成の複雑さと一致する暗記という決定的な概念はいまだに解明されていない。
この理解は、記憶化がユーザーの期待を満たすために、特に表現不足のエンティティの表現を生成する際には、プライバシー上のリスクを生じるため不可欠である。
本稿では,テキスト対画像モデルに合わせた暗記の専用定義を提案し,ユーザの期待に応じて3つのタイプに分類する。
ユーザのプライバシとモデル出力の生成的品質のバランスの重要性を強調しながら,意図しない記憶と意図しない記憶の微妙な区別を詳細に検討した。
安定拡散モデルを用いて,記憶の定義を検証し,それらの応用を明らかにする例を示す。
関連論文リスト
- A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。
研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。
データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文 参考訳(メタデータ) (2024-06-01T15:47:13Z) - Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models [39.607005089747936]
テキスト・画像拡散モデルにおける記憶の実際的解析を行う。
暗記に必要な3つの条件,それぞれ類似性,存在,および確率を同定する。
次に,モデルの予測誤差と画像複製の相関関係を明らかにする。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - ROME: Memorization Insights from Text, Logits and Representation [17.458840481902644]
本稿では、トレーニングデータの直接処理をバイパスするROMEという革新的な手法を提案する。
具体的には、コンテキスト非依存、従来型、事実の3つの異なるタイプに分類されるデータセットを選択します。
そこで本研究では,生成したテキストのロジットと表現を調べることで,記憶されたサンプルと記憶されていないサンプルの相違に着目した。
論文 参考訳(メタデータ) (2024-03-01T13:15:30Z) - Deep Variational Privacy Funnel: General Modeling with Applications in
Face Recognition [3.351714665243138]
エンド・ツー・エンド・トレーニング・フレームワークを用いたプライバシー保護表現学習手法を開発した。
我々はこのモデルを最先端の顔認識システムに適用する。
論文 参考訳(メタデータ) (2024-01-26T11:32:53Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。