論文の概要: Enhancing Text-to-Image Diffusion Transformer via Split-Text Conditioning
- arxiv url: http://arxiv.org/abs/2505.19261v1
- Date: Sun, 25 May 2025 18:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.014853
- Title: Enhancing Text-to-Image Diffusion Transformer via Split-Text Conditioning
- Title(参考訳): スプリット・テキスト・コンディショニングによるテキスト・画像拡散変換器の強化
- Authors: Yu Zhang, Jialei Zhou, Xinchen Li, Qi Zhang, Zhongwei Wan, Tianyu Wang, Duoqian Miao, Changwei Wang, Longbing Cao,
- Abstract要約: 1フライ完全文入力は、重要な意味的詳細を見落としているか、意味的混乱を引き起こす。
そこで本研究では,DiT-STという新しいスプリット・テキスト・コンディショニング・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.53556123658692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-image diffusion generation typically employs complete-text conditioning. Due to the intricate syntax, diffusion transformers (DiTs) inherently suffer from a comprehension defect of complete-text captions. One-fly complete-text input either overlooks critical semantic details or causes semantic confusion by simultaneously modeling diverse semantic primitive types. To mitigate this defect of DiTs, we propose a novel split-text conditioning framework named DiT-ST. This framework converts a complete-text caption into a split-text caption, a collection of simplified sentences, to explicitly express various semantic primitives and their interconnections. The split-text caption is then injected into different denoising stages of DiT-ST in a hierarchical and incremental manner. Specifically, DiT-ST leverages Large Language Models to parse captions, extracting diverse primitives and hierarchically sorting out and constructing these primitives into a split-text input. Moreover, we partition the diffusion denoising process according to its differential sensitivities to diverse semantic primitive types and determine the appropriate timesteps to incrementally inject tokens of diverse semantic primitive types into input tokens via cross-attention. In this way, DiT-ST enhances the representation learning of specific semantic primitive types across different stages. Extensive experiments validate the effectiveness of our proposed DiT-ST in mitigating the complete-text comprehension defect.
- Abstract(参考訳): 現在のテキスト・ツー・イメージの拡散生成は、典型的には完全テキスト・コンディショニングを用いる。
複雑な構文のため、拡散トランスフォーマー(DiT)は本質的に完全文キャプションの理解上の欠陥に悩まされる。
一フライ完全文入力は、重要な意味的詳細を見落としているか、または多様な意味的原始型を同時にモデル化することによって意味的混乱を引き起こす。
このようなDiTの欠陥を軽減するために,DiT-STという新しいスプリット・テキスト・コンディショニング・フレームワークを提案する。
このフレームワークは、全文キャプションを分割文キャプション、単純化された文の集合に変換し、様々な意味的プリミティブとその相互接続を明示的に表現する。
次に、分割文キャプションは、階層的かつ漸進的な方法でDiT-STの異なる分解段階に注入される。
具体的には、DiT-STはLarge Language Modelsを利用してキャプションを解析し、多様なプリミティブを抽出し、階層的にこれらのプリミティブを分割テキスト入力に分解する。
さらに,拡散認知過程を,その差分感によって多様意味原始型に分割し,多様意味原始型のトークンを相互注意により入力トークンにインクリメンタルに注入する適切なタイミングを決定する。
このようにして、DiT-STは異なる段階にわたる特定の意味的プリミティブ型の表現学習を強化する。
広汎な実験により,全文理解障害を軽減するために提案したDiT-STの有効性が検証された。
関連論文リスト
- Layout Agnostic Scene Text Image Synthesis with Diffusion Models [42.37340959594495]
SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。
SceneTextGenの新規性は、3つの重要なコンポーネントを統合している: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、不要なテキスト生成とマイナーな文字不正確な問題に対処する文字レベルインスタンスセグメンテーションモデルと、ワードレベルスポッティングモデルである。
論文 参考訳(メタデータ) (2024-06-03T07:20:34Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T13:09:51Z) - Syntax-driven Iterative Expansion Language Models for Controllable Text
Generation [2.578242050187029]
本稿では,ニューラルテキスト生成に構文的帰納バイアスを導入するための新しいパラダイムを提案する。
実験の結果,このパラダイムはテキスト生成に有効であり,LSTMとトランスフォーマーの質と同等の多様性を持つことがわかった。
論文 参考訳(メタデータ) (2020-04-05T14:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。