論文の概要: ReFACT: Updating Text-to-Image Models by Editing the Text Encoder
- arxiv url: http://arxiv.org/abs/2306.00738v1
- Date: Thu, 1 Jun 2023 14:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 15:35:51.527236
- Title: ReFACT: Updating Text-to-Image Models by Editing the Text Encoder
- Title(参考訳): ReFACT: テキストエンコーダの編集によるテキストから画像への更新
- Authors: Dana Arad, Hadas Orgad, Yonatan Belinkov
- Abstract要約: 本稿では,テキスト・ツー・イメージ生成モデルにおける事実知識の編集手法であるReFACTを紹介する。
ReFACTはテキストエンコーダ内の特定のレイヤの重みを更新し、モデルのパラメータのごく一部だけを変更し、残りのモデルに影響を与えない。
我々は、新たにキュレートされたデータセットであるRoADとともに、既存のベンチマークでReFACTを実証的に評価する。
- 参考スコア(独自算出の注目度): 24.685132962653796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models are trained on extensive amounts of data, leading them
to implicitly encode factual knowledge within their parameters. While some
facts are useful, others may be incorrect or become outdated (e.g., the current
President of the United States). We introduce ReFACT, a novel approach for
editing factual knowledge in text-to-image generative models. ReFACT updates
the weights of a specific layer in the text encoder, only modifying a tiny
portion of the model's parameters, and leaving the rest of the model
unaffected. We empirically evaluate ReFACT on an existing benchmark, alongside
RoAD, a newly curated dataset. ReFACT achieves superior performance in terms of
generalization to related concepts while preserving unrelated concepts.
Furthermore, ReFACT maintains image generation quality, making it a valuable
tool for updating and correcting factual information in text-to-image models.
- Abstract(参考訳): テキストから画像へのモデルは膨大なデータに基づいてトレーニングされ、パラメータ内に事実知識を暗黙的にエンコードする。
いくつかの事実は有用であるが、他の事実は間違っているか時代遅れになる可能性がある(例えば、現在のアメリカ合衆国大統領)。
本稿では,テキスト・ツー・イメージ生成モデルにおける事実知識の編集手法であるReFACTを紹介する。
ReFACTはテキストエンコーダ内の特定のレイヤの重みを更新し、モデルのパラメータのごく一部だけを変更し、残りのモデルに影響を与えない。
我々は、新たにキュレートされたデータセットであるRoADとともに、既存のベンチマークでReFACTを実証的に評価する。
ReFACTは、関連する概念を保存しながら、関連する概念を一般化するという点で優れたパフォーマンスを達成する。
さらに、ReFACTは画像生成の品質を維持しており、テキスト・ツー・イメージ・モデルにおける事実情報の更新と修正に有用なツールである。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Enhancing Detail Preservation for Customized Text-to-Image Generation: A
Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。
提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-23T01:14:53Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2023-02-09T18:57:56Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。