論文の概要: On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2503.23011v1
- Date: Sat, 29 Mar 2025 08:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:36.489912
- Title: On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation
- Title(参考訳): テキスト・画像生成における強い意味的結合のためのテキスト・トケインベディングの幾何学的特性について
- Authors: Hoigi Seo, Junseo Bang, Haechang Lee, Joohoon Lee, Byung Hyun Lee, Se Young Chun,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、複数のオブジェクトや属性を含む複雑なシーンにおいて、しばしばテキスト・イメージのミスアライメントに悩まされる。
強力なセマンティックバインディングを備えたトレーニング不要なテキスト埋め込み対応T2Iフレームワークである textbfTeeMo を提案する。
- 参考スコア(独自算出の注目度): 9.742245178781
- License:
- Abstract: Text-to-Image (T2I) models often suffer from text-image misalignment in complex scenes involving multiple objects and attributes. Semantic binding aims to mitigate this issue by accurately associating the generated attributes and objects with their corresponding noun phrases (NPs). Existing methods rely on text or latent optimizations, yet the factors influencing semantic binding remain underexplored. Here we investigate the geometrical properties of text token embeddings and their cross-attention (CA) maps. We empirically and theoretically analyze that the geometrical properties of token embeddings, specifically both angular distances and norms, play a crucial role in CA map differentiation. Then, we propose \textbf{TeeMo}, a training-free text embedding-aware T2I framework with strong semantic binding. TeeMo consists of Causality-Aware Projection-Out (CAPO) for distinct inter-NP CA maps and Adaptive Token Mixing (ATM) with our loss to enhance inter-NP separation while maintaining intra-NP cohesion in CA maps. Extensive experiments confirm TeeMo consistently outperforms prior arts across diverse baselines and datasets.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、複数のオブジェクトや属性を含む複雑なシーンにおいて、しばしばテキスト・イメージのミスアライメントに悩まされる。
意味的バインディングは、生成された属性とオブジェクトを対応する名詞句(NP)と正確に関連付けることでこの問題を軽減することを目的としている。
既存の手法はテキストや潜在最適化に依存しているが、セマンティックバインディングに影響を及ぼす要因は未解明のままである。
そこで本研究では,テキストトークン埋め込みの幾何学的性質と,それらの相互注意(CA)マップについて検討する。
我々は、トークン埋め込みの幾何学的性質、特に角距離とノルムがCAマップの微分において重要な役割を果たすことを経験的および理論的に分析した。
そこで本研究では,強力なセマンティックバインディングを備えたトレーニング不要なテキスト埋め込み対応T2Iフレームワークである‘textbf{TeeMo}’を提案する。
TeeMoは、異なるNP間CAマップのためのCausality-Aware Projection-Out (CAPO) と、APM(Adaptive Token Mixing) からなる。
大規模な実験により、TeeMoはさまざまなベースラインとデータセットで先行技術より一貫して優れています。
関連論文リスト
- Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis [98.21700880115938]
Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。
Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
論文 参考訳(メタデータ) (2024-11-11T17:05:15Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and
Isometric Conditions [7.615096161060399]
並列コーパスを利用した文脈認識・辞書フリーマッピング手法について検討する。
本研究は, 正規化文脈埋め込み空間における等方性, 等方性, 等方性の間の密接な関係を解明するものである。
論文 参考訳(メタデータ) (2021-07-19T22:57:36Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。