Fugu-MT 論文翻訳(概要): Uncovering the Text Embedding in Text-to-Image Diffusion Models

論文の概要: Uncovering the Text Embedding in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2404.01154v1
Date: Mon, 1 Apr 2024 14:59:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:05:48.980521
Title: Uncovering the Text Embedding in Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルに埋め込まれたテキストの発見
Authors: Hu Yu, Hao Luo, Fan Wang, Feng Zhao,
Abstract要約: テキストの埋め込みは、テキストと画像の間の重要な仲介として、比較的未発見のままである。我々は,単語ごとの埋め込みの重要性と,テキスト埋め込みにおける文脈的相関に関する2つの重要な知見を同定した。テキスト埋め込みは本質的に多様な意味的ポテンシャルを持ち、特異値分解のレンズを通してこの性質を明らかにする。
参考スコア（独自算出の注目度）: 17.108496821429494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The correspondence between input text and the generated image exhibits opacity, wherein minor textual modifications can induce substantial deviations in the generated image. While, text embedding, as the pivotal intermediary between text and images, remains relatively underexplored. In this paper, we address this research gap by delving into the text embedding space, unleashing its capacity for controllable image editing and explicable semantic direction attributes within a learning-free framework. Specifically, we identify two critical insights regarding the importance of per-word embedding and their contextual correlations within text embedding, providing instructive principles for learning-free image editing. Additionally, we find that text embedding inherently possesses diverse semantic potentials, and further reveal this property through the lens of singular value decomposition (SVD). These uncovered properties offer practical utility for image editing and semantic discovery. More importantly, we expect the in-depth analyses and findings of the text embedding can enhance the understanding of text-to-image diffusion models.
Abstract（参考訳）: 入力テキストと生成された画像との対応は不透明度を示し、小さなテキストによる修正は生成された画像にかなりのずれを生じさせる。一方、テキストの埋め込みは、テキストと画像の間の重要な仲介役として、比較的過小評価されている。本稿では,この研究のギャップを,テキスト埋め込み空間を掘り下げて,学習自由フレームワーク内での制御可能な画像編集と説明可能な意味方向属性のキャパシティを開放することで解決する。具体的には、単語ごとの埋め込みの重要性と、テキスト埋め込みにおける文脈的相関に関する2つの重要な洞察を特定し、学習自由な画像編集の指導的原則を提供する。さらに、テキスト埋め込みは本質的に多様な意味的ポテンシャルを持ち、特異値分解(SVD)のレンズを通してこの性質を明らかにする。これらの発見プロパティは、画像編集と意味発見のための実用的なユーティリティを提供する。さらに重要なことは、テキスト埋め込みの詳細な分析と発見により、テキストから画像への拡散モデルの理解が促進されることを期待する。

関連論文リスト

Emergence of Text Readability in Vision Language Models [69.10470691283281]
VLM(Vision-Language Models)のトレーニング中に画像内のテキストコンテンツを認識する能力がどのように現れるかを検討する。画像中のテキスト情報を読み取る能力は、かなりの訓練を繰り返した後、突然現れる。この遅延は、コントラスト学習が最初に一般的な意味理解を優先し、後にテキスト固有の記号処理が発達する傾向を反映している可能性がある。
論文参考訳（メタデータ） (2025-06-24T07:35:32Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP [46.53595526049201]
CLIPのようなVision-Language Models (VLM)内のテキストエンコーダは、画像と共有する埋め込み空間へのテキスト入力の変換において重要な役割を果たす。解釈可能なテキスト埋め込み(SToRI)を構築するためのセマンティックトークン再重み付けフレームワークを提案する。 SToRIは文脈的重要性に基づいて意味的要素を差分重み付けすることでCLIPのテキスト符号化プロセスを洗練する。
論文参考訳（メタデータ） (2024-10-11T02:42:13Z)
RealCustom++: Representing Images as Real-Word for Real-Time Customization [80.04828124070418]
テキスト・ツー・イメージのカスタマイズは、テキストのセマンティクスと主題の外観の両方に合わせた新しいイメージを合成することを目的としている。既存の作品は擬単語のパラダイムに従っており、特定の主題を擬単語として表現する。そこで我々はRealCustom++と呼ばれる新しいリアルワードパラダイムを提案し,その代わりに課題を非コンフリクトなリアルワードとして表現する。
論文参考訳（メタデータ） (2024-08-19T07:15:44Z)
Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文参考訳（メタデータ） (2024-01-12T03:46:29Z)
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文参考訳（メタデータ） (2023-12-29T07:59:07Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)
Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文参考訳（メタデータ） (2021-12-09T13:54:56Z)
Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文参考訳（メタデータ） (2020-09-21T12:31:42Z)
Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文参考訳（メタデータ） (2020-02-12T21:09:15Z)
Fine-grained Image Classification and Retrieval by Combining Visual and Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文参考訳（メタデータ） (2020-01-14T12:06:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。