Fugu-MT 論文翻訳(概要): ReFACT: Updating Text-to-Image Models by Editing the Text Encoder

論文の概要: ReFACT: Updating Text-to-Image Models by Editing the Text Encoder

arxiv url: http://arxiv.org/abs/2306.00738v1
Date: Thu, 1 Jun 2023 14:32:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 15:35:51.527236
Title: ReFACT: Updating Text-to-Image Models by Editing the Text Encoder
Title（参考訳）: ReFACT: テキストエンコーダの編集によるテキストから画像への更新
Authors: Dana Arad, Hadas Orgad, Yonatan Belinkov
Abstract要約: 本稿では,テキスト・ツー・イメージ生成モデルにおける事実知識の編集手法であるReFACTを紹介する。 ReFACTはテキストエンコーダ内の特定のレイヤの重みを更新し、モデルのパラメータのごく一部だけを変更し、残りのモデルに影響を与えない。我々は、新たにキュレートされたデータセットであるRoADとともに、既存のベンチマークでReFACTを実証的に評価する。
参考スコア（独自算出の注目度）: 24.685132962653796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image models are trained on extensive amounts of data, leading them to implicitly encode factual knowledge within their parameters. While some facts are useful, others may be incorrect or become outdated (e.g., the current President of the United States). We introduce ReFACT, a novel approach for editing factual knowledge in text-to-image generative models. ReFACT updates the weights of a specific layer in the text encoder, only modifying a tiny portion of the model's parameters, and leaving the rest of the model unaffected. We empirically evaluate ReFACT on an existing benchmark, alongside RoAD, a newly curated dataset. ReFACT achieves superior performance in terms of generalization to related concepts while preserving unrelated concepts. Furthermore, ReFACT maintains image generation quality, making it a valuable tool for updating and correcting factual information in text-to-image models.
Abstract（参考訳）: テキストから画像へのモデルは膨大なデータに基づいてトレーニングされ、パラメータ内に事実知識を暗黙的にエンコードする。いくつかの事実は有用であるが、他の事実は間違っているか時代遅れになる可能性がある(例えば、現在のアメリカ合衆国大統領)。本稿では,テキスト・ツー・イメージ生成モデルにおける事実知識の編集手法であるReFACTを紹介する。 ReFACTはテキストエンコーダ内の特定のレイヤの重みを更新し、モデルのパラメータのごく一部だけを変更し、残りのモデルに影響を与えない。我々は、新たにキュレートされたデータセットであるRoADとともに、既存のベンチマークでReFACTを実証的に評価する。 ReFACTは、関連する概念を保存しながら、関連する概念を一般化するという点で優れたパフォーマンスを達成する。さらに、ReFACTは画像生成の品質を維持しており、テキスト・ツー・イメージ・モデルにおける事実情報の更新と修正に有用なツールである。

関連論文リスト

CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文参考訳（メタデータ） (2025-04-26T03:26:30Z)
Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data [39.17652541259225]
Composed Image Retrieval (CIR)は、テキストに付加された参照画像と一致する画像を取得するタスクである。画像とテキストのモダリティを効果的に組み合わせた埋め込み型再構成アーキテクチャを提案する。 InstructCIRというモデルでは、CIRRおよびFashionIQデータセット上のゼロショット合成画像検索において、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-04-01T14:03:46Z)
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文参考訳（メタデータ） (2024-12-08T22:29:56Z)
Beyond Pixels: Text Enhances Generalization in Real-World Image Restoration [47.942948541067544]
拡散に基づく復元モデルの生成能力を再活性化するために,テキストを補助的不変表現として用いることを提案する。 Res-Captionerは、画像の内容や劣化レベルに合わせて拡張されたテキスト記述を生成するモジュールである。様々な現実世界のシナリオを捉えるために設計された新しいベンチマークであるRealIRを提示する。
論文参考訳（メタデータ） (2024-12-01T16:36:22Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文参考訳（メタデータ） (2023-12-04T18:35:27Z)
CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文参考訳（メタデータ） (2023-11-27T16:33:29Z)
Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文参考訳（メタデータ） (2023-05-23T01:14:53Z)
ReGeneration Learning of Diffusion Models with Rich Prompts for Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文参考訳（メタデータ） (2023-05-08T12:08:12Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2023-02-09T18:57:56Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。