Fugu-MT 論文翻訳(概要): Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines

論文の概要: Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines

arxiv url: http://arxiv.org/abs/2403.05846v2
Date: Mon, 21 Oct 2024 09:38:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.284412
Title: Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines
Title（参考訳）: 拡散レンズ:テキストから画像へのパイプラインにおけるテキストエンコーダの解釈
Authors: Michael Toker, Hadas Orgad, Mor Ventura, Dana Arad, Yonatan Belinkov,
Abstract要約: テキスト間拡散モデル(T2I)は、テキストプロンプトの潜在表現を用いて、画像生成プロセスを導く。本稿では,その中間表現から画像を生成することによって,T2Iモデルのテキストエンコーダを解析するDiffusion Lensを提案する。
参考スコア（独自算出の注目度）: 33.49257838597258
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image diffusion models (T2I) use a latent representation of a text prompt to guide the image generation process. However, the process by which the encoder produces the text representation is unknown. We propose the Diffusion Lens, a method for analyzing the text encoder of T2I models by generating images from its intermediate representations. Using the Diffusion Lens, we perform an extensive analysis of two recent T2I models. Exploring compound prompts, we find that complex scenes describing multiple objects are composed progressively and more slowly compared to simple scenes; Exploring knowledge retrieval, we find that representation of uncommon concepts requires further computation compared to common concepts, and that knowledge retrieval is gradual across layers. Overall, our findings provide valuable insights into the text encoder component in T2I pipelines.
Abstract（参考訳）: テキスト間拡散モデル(T2I)は、テキストプロンプトの潜在表現を用いて、画像生成プロセスを導く。しかし、エンコーダがテキスト表現を生成する過程は不明である。本稿では,その中間表現から画像を生成することによって,T2Iモデルのテキストエンコーダを解析するDiffusion Lensを提案する。拡散レンズを用いて、2つの最新のT2Iモデルの広範な解析を行う。複合的なプロンプトを探索し、複数のオブジェクトを記述する複雑なシーンは、単純なシーンに比べて徐々に、よりゆっくりと構成されていることを発見した。全体として、我々の発見はT2Iパイプラインのテキストエンコーダコンポーネントに関する貴重な洞察を提供する。

関連論文リスト

Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers [64.4017917917109]
テキスト・画像生成のためのマルチモーダル拡散変換器(MMDiT)は、テキストと画像の分岐を別々に維持する。テキスト分岐におけるプロンプト表現のセマンティクスは、深さが増加するにつれて徐々に忘れられていく。これらの知見に触発されて、我々は、早期層から後層へのプロンプト表現をリジェクションする、トレーニング不要なアプローチを導入し、このことを忘れないようにした。
論文参考訳（メタデータ） (2026-02-06T17:19:53Z)
Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders [46.79030733172859]
本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルのためのシンプソン・リライト(T2G)パラダイムを提案する。推論に基づく画像生成と編集ベンチマークにより,現実の一貫性,セマンティックアライメント,視覚的リアリズムが大幅に改善された。この結果は,推論,表現,実証能力を備えた次世代統一モデルに向けての有望な一歩となる。
論文参考訳（メタデータ） (2026-01-15T12:19:05Z)
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models [64.52046218688295]
テキスト・ツー・イメージ(T2I)拡散モデルは、画像生成プロセスのガイドとなるエンコードプロンプトに依存している。我々は,T2Iモデルにおいてパディングトークンが果たす役割の詳細な分析を行う。テキストエンコーディング中、拡散過程中、または効果的に無視される場合、パディングトークンがモデルの出力に影響を与える可能性がある。
論文参考訳（メタデータ） (2025-01-12T08:36:38Z)
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。 7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文参考訳（メタデータ） (2024-06-30T15:50:32Z)
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文参考訳（メタデータ） (2023-11-28T17:57:44Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文参考訳（メタデータ） (2023-11-01T16:12:40Z)
Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。 2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文参考訳（メタデータ） (2023-08-26T11:39:22Z)
Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文参考訳（メタデータ） (2023-05-25T16:30:07Z)
TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文参考訳（メタデータ） (2023-05-18T10:16:19Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-10T11:54:49Z)
Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文参考訳（メタデータ） (2021-04-01T15:48:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。