Fugu-MT 論文翻訳(概要): On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation

論文の概要: On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2503.23011v1
Date: Sat, 29 Mar 2025 08:31:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.887881
Title: On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation
Title（参考訳）: テキスト・画像生成における強い意味的結合のためのテキスト・トケインベディングの幾何学的特性について
Authors: Hoigi Seo, Junseo Bang, Haechang Lee, Joohoon Lee, Byung Hyun Lee, Se Young Chun,
Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、複数のオブジェクトや属性を含む複雑なシーンにおいて、しばしばテキスト・イメージのミスアライメントに悩まされる。強力なセマンティックバインディングを備えたトレーニング不要なテキスト埋め込み対応T2Iフレームワークである textbfTeeMo を提案する。
参考スコア（独自算出の注目度）: 9.742245178781
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-to-Image (T2I) models often suffer from text-image misalignment in complex scenes involving multiple objects and attributes. Semantic binding aims to mitigate this issue by accurately associating the generated attributes and objects with their corresponding noun phrases (NPs). Existing methods rely on text or latent optimizations, yet the factors influencing semantic binding remain underexplored. Here we investigate the geometrical properties of text token embeddings and their cross-attention (CA) maps. We empirically and theoretically analyze that the geometrical properties of token embeddings, specifically both angular distances and norms, play a crucial role in CA map differentiation. Then, we propose \textbf{TeeMo}, a training-free text embedding-aware T2I framework with strong semantic binding. TeeMo consists of Causality-Aware Projection-Out (CAPO) for distinct inter-NP CA maps and Adaptive Token Mixing (ATM) with our loss to enhance inter-NP separation while maintaining intra-NP cohesion in CA maps. Extensive experiments confirm TeeMo consistently outperforms prior arts across diverse baselines and datasets.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)モデルは、複数のオブジェクトや属性を含む複雑なシーンにおいて、しばしばテキスト・イメージのミスアライメントに悩まされる。意味的バインディングは、生成された属性とオブジェクトを対応する名詞句(NP)と正確に関連付けることでこの問題を軽減することを目的としている。既存の手法はテキストや潜在最適化に依存しているが、セマンティックバインディングに影響を及ぼす要因は未解明のままである。そこで本研究では,テキストトークン埋め込みの幾何学的性質と,それらの相互注意(CA)マップについて検討する。我々は、トークン埋め込みの幾何学的性質、特に角距離とノルムがCAマップの微分において重要な役割を果たすことを経験的および理論的に分析した。そこで本研究では,強力なセマンティックバインディングを備えたトレーニング不要なテキスト埋め込み対応T2Iフレームワークである‘textbf{TeeMo}’を提案する。 TeeMoは、異なるNP間CAマップのためのCausality-Aware Projection-Out (CAPO) と、APM(Adaptive Token Mixing) からなる。大規模な実験により、TeeMoはさまざまなベースラインとデータセットで先行技術より一貫して優れています。

関連論文リスト

StructCoh: Structured Contrastive Learning for Context-Aware Text Semantic Matching [10.000850856259866]
StructCohはグラフ強化のコントラスト学習フレームワークである。階層的な対照的な目的は、複数の粒度で一貫性を強制する。 3つの法的な文書マッチングベンチマークと学術的プラジャリズム検出データセットの実験は、大幅な改善を示している。
論文参考訳（メタデータ） (2025-09-02T07:21:36Z)
LIGHT: Multi-Modal Text Linking on Historical Maps [1.8399976559754367]
光は、歴史的地図上のテキストをリンクするための言語的、画像的、幾何学的特徴を統合する、新しいマルチモーダルアプローチである。 ICDAR 2024/2025 MapTextコンペティションのデータでは、既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-06-27T19:18:00Z)
Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis [98.21700880115938]
Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。 Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
論文参考訳（メタデータ） (2024-11-11T17:05:15Z)
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文参考訳（メタデータ） (2024-04-21T20:26:46Z)
Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文参考訳（メタデータ） (2024-03-29T15:54:36Z)
Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and Isometric Conditions [7.615096161060399]
並列コーパスを利用した文脈認識・辞書フリーマッピング手法について検討する。本研究は, 正規化文脈埋め込み空間における等方性, 等方性, 等方性の間の密接な関係を解明するものである。
論文参考訳（メタデータ） (2021-07-19T22:57:36Z)
Dependency Parsing based Semantic Representation Learning with Graph Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文参考訳（メタデータ） (2021-04-14T13:09:51Z)
Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文参考訳（メタデータ） (2021-01-16T15:43:17Z)
A Comparative Study on Structural and Semantic Properties of Sentence Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文参考訳（メタデータ） (2020-09-23T15:45:32Z)
Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文参考訳（メタデータ） (2020-07-20T12:11:22Z)
A Hybrid Approach for Aspect-Based Sentiment Analysis Using Deep Contextual Word Embeddings and Hierarchical Attention [4.742874328556818]
我々は、アスペクトベース感性分析(HAABSA)のための最先端のハイブリッドアプローチを2方向に拡張する。まず、テキスト中の単語の意味をよりよく扱うために、文脈的でない単語埋め込みを文脈的でない単語埋め込みに置き換える。次に、HAABSA高レベル表現に付加的な注意層を追加することにより、入力データのモデリングにおけるメソッドの柔軟性を向上させる。
論文参考訳（メタデータ） (2020-04-18T17:54:55Z)
Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文参考訳（メタデータ） (2020-02-20T00:51:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。