Fugu-MT 論文翻訳(概要): Precise Parameter Localization for Textual Generation in Diffusion Models

論文の概要: Precise Parameter Localization for Textual Generation in Diffusion Models

arxiv url: http://arxiv.org/abs/2502.09935v1
Date: Fri, 14 Feb 2025 06:11:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.646693
Title: Precise Parameter Localization for Textual Generation in Diffusion Models
Title（参考訳）: 拡散モデルにおけるテキスト生成のための高精度パラメータ局所化
Authors: Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic,
Abstract要約: 新たな拡散モデルでは、高画質のテキストを統合してフォトリアリスティックな画像を合成することができる。注意アクティベーションパッチでは、拡散モデルのパラメータの1%未満が注意層に含まれており、画像内のテキストコンテンツの生成に影響を与えることが示されている。テキストコンテンツ生成に責任のあるレイヤをローカライズすることの恩恵を受けるアプリケーションをいくつか紹介する。
参考スコア（独自算出の注目度）: 7.057901456502796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Novel diffusion models can synthesize photo-realistic images with integrated high-quality text. Surprisingly, we demonstrate through attention activation patching that only less than 1% of diffusion models' parameters, all contained in attention layers, influence the generation of textual content within the images. Building on this observation, we improve textual generation efficiency and performance by targeting cross and joint attention layers of diffusion models. We introduce several applications that benefit from localizing the layers responsible for textual content generation. We first show that a LoRA-based fine-tuning solely of the localized layers enhances, even more, the general text-generation capabilities of large diffusion models while preserving the quality and diversity of the diffusion models' generations. Then, we demonstrate how we can use the localized layers to edit textual content in generated images. Finally, we extend this idea to the practical use case of preventing the generation of toxic text in a cost-free manner. In contrast to prior work, our localization approach is broadly applicable across various diffusion model architectures, including U-Net (e.g., LDM and SDXL) and transformer-based (e.g., DeepFloyd IF and Stable Diffusion 3), utilizing diverse text encoders (e.g., from CLIP to the large language models like T5). Project page available at https://t2i-text-loc.github.io/.
Abstract（参考訳）: 新たな拡散モデルでは、高画質のテキストを統合してフォトリアリスティックな画像を合成することができる。意外なことに、注意活性化パッチでは、拡散モデルのパラメータの1%未満が注意層に含まれており、画像内のテキストコンテンツの生成に影響を与えることが示されている。この観測に基づいて,拡散モデルの相互・共同注意層を対象とし,テキスト生成効率と性能を向上する。テキストコンテンツ生成に責任のあるレイヤをローカライズすることの恩恵を受けるアプリケーションをいくつか紹介する。まず,局所化層のみを用いたLoRAファインチューニングにより,拡散モデルの世代間の品質と多様性を保ちながら,大規模拡散モデルの汎用テキスト生成能力が向上することを示す。次に,局所化層を用いて生成した画像のテキストコンテンツを編集する方法を示す。最後に、この考え方を、有毒テキストの発生を無コストで防止する実用的なユースケースにまで拡張する。 U-Net(例: LDM, SDXL)やTransformer-based(例: DeepFloyd IF, Stable Diffusion 3)など,さまざまなテキストエンコーダ(例: CLIP から T5 のような大規模言語モデルへの変換)などです。プロジェクトページはhttps://t2i-text-loc.github.io/.comで公開されている。

関連論文リスト

ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文参考訳（メタデータ） (2024-06-17T19:31:24Z)
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-16T17:47:16Z)
On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文参考訳（メタデータ） (2024-02-02T12:39:49Z)
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。 RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文参考訳（メタデータ） (2024-01-22T06:16:29Z)
UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文参考訳（メタデータ） (2023-12-08T07:47:46Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)
GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-04-25T02:14:44Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。