論文の概要: ReFACT: Updating Text-to-Image Models by Editing the Text Encoder
- arxiv url: http://arxiv.org/abs/2306.00738v2
- Date: Tue, 7 May 2024 10:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 20:33:08.024374
- Title: ReFACT: Updating Text-to-Image Models by Editing the Text Encoder
- Title(参考訳): ReFACT: テキストエンコーダの編集によるテキストから画像への更新
- Authors: Dana Arad, Hadas Orgad, Yonatan Belinkov,
- Abstract要約: ReFACTは、エンドユーザーからの明示的な入力を中継したり、コストのかかるリトレーニングを行うことなく、テキスト・ツー・イメージ・モデルの事実関連を編集するための新しいアプローチである。
ReFACTは、関連する概念の一般化と無関係な概念の保存の両方において優れた性能を達成する。
- 参考スコア(独自算出の注目度): 39.25354074215709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our world is marked by unprecedented technological, global, and socio-political transformations, posing a significant challenge to text-to-image generative models. These models encode factual associations within their parameters that can quickly become outdated, diminishing their utility for end-users. To that end, we introduce ReFACT, a novel approach for editing factual associations in text-to-image models without relaying on explicit input from end-users or costly re-training. ReFACT updates the weights of a specific layer in the text encoder, modifying only a tiny portion of the model's parameters and leaving the rest of the model unaffected. We empirically evaluate ReFACT on an existing benchmark, alongside a newly curated dataset. Compared to other methods, ReFACT achieves superior performance in both generalization to related concepts and preservation of unrelated concepts. Furthermore, ReFACT maintains image generation quality, making it a practical tool for updating and correcting factual information in text-to-image models.
- Abstract(参考訳): 私たちの世界は、前例のない技術的、グローバル、そして社会的な政治変革に特徴付けられており、テキストから画像への生成モデルにとって大きな課題となっている。
これらのモデルは、パラメータ内の事実関連をエンコードし、すぐに時代遅れになり、エンドユーザの利便性を低下させる。
そこで本研究では,エンドユーザーからの明示的な入力を中継したり,コストのかかる再学習を行うことなく,テキスト・ツー・イメージ・モデルの事実関連を編集する新しい手法であるReFACTを紹介する。
ReFACTはテキストエンコーダ内の特定のレイヤの重みを更新し、モデルのパラメータのごく一部だけを変更し、残りのモデルに影響を与えない。
新たにキュレートされたデータセットとともに、既存のベンチマークでReFACTを実証的に評価する。
他の手法と比較して、ReFACTは関連する概念への一般化と無関係な概念の保存の両方において優れた性能を達成する。
さらに、ReFACTは画像生成の品質を維持しており、テキスト・ツー・イメージ・モデルの事実情報を更新・修正するための実用的なツールである。
関連論文リスト
- Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Enhancing Detail Preservation for Customized Text-to-Image Generation: A
Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。
提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-23T01:14:53Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2023-02-09T18:57:56Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。