論文の概要: Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2411.07132v1
- Date: Mon, 11 Nov 2024 17:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:44.970752
- Title: Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成における学習自由な意味結合のためのトークンマージ
- Authors: Taihang Hu, Linxuan Li, Joost van de Weijer, Hongcheng Gao, Fahad Shahbaz Khan, Jian Yang, Ming-Ming Cheng, Kai Wang, Yaxing Wang,
- Abstract要約: Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。
Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
- 参考スコア(独自算出の注目度): 98.21700880115938
- License:
- Abstract: Although text-to-image (T2I) models exhibit remarkable generation capabilities, they frequently fail to accurately bind semantically related objects or attributes in the input prompts; a challenge termed semantic binding. Previous approaches either involve intensive fine-tuning of the entire T2I model or require users or large language models to specify generation layouts, adding complexity. In this paper, we define semantic binding as the task of associating a given object with its attribute, termed attribute binding, or linking it to other related sub-objects, referred to as object binding. We introduce a novel method called Token Merging (ToMe), which enhances semantic binding by aggregating relevant tokens into a single composite token. This ensures that the object, its attributes and sub-objects all share the same cross-attention map. Additionally, to address potential confusion among main objects with complex textual prompts, we propose end token substitution as a complementary strategy. To further refine our approach in the initial stages of T2I generation, where layouts are determined, we incorporate two auxiliary losses, an entropy loss and a semantic binding loss, to iteratively update the composite token to improve the generation integrity. We conducted extensive experiments to validate the effectiveness of ToMe, comparing it against various existing methods on the T2I-CompBench and our proposed GPT-4o object binding benchmark. Our method is particularly effective in complex scenarios that involve multiple objects and attributes, which previous methods often fail to address. The code will be publicly available at \url{https://github.com/hutaihang/ToMe}.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは優れた生成能力を示すが、しばしば入力プロンプト内の意味的関連オブジェクトや属性を正確に結合することができない。
以前のアプローチでは、T2Iモデル全体を集中的に微調整するか、ユーザまたは大きな言語モデルに生成レイアウトを指定させ、複雑さを増す必要がある。
本稿では,特定のオブジェクトに属性を関連付けるタスク,属性バインディングと呼ぶタスク,オブジェクトバインディングと呼ばれる他の関連オブジェクトにリンクするタスクとしてセマンティックバインディングを定義する。
Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
これにより、オブジェクト、その属性、サブオブジェクトがすべて同じクロスアテンションマップを共有することが保証される。
さらに、複雑なテキストプロンプトを持つメインオブジェクト間の潜在的な混乱を解決するために、補完的な戦略としてエンドトークン置換を提案する。
レイアウトを決定するT2I生成の初期段階において、我々のアプローチをさらに洗練するために、2つの補助的損失、エントロピー損失とセマンティックバインディング損失を組み込んで、合成トークンを反復的に更新し、生成整合性を改善する。
我々は,T2I-CompBenchと提案したGPT-4oオブジェクトバインディングベンチマークを用いて,ToMeの有効性を検証した。
提案手法は,複数のオブジェクトや属性を含む複雑なシナリオにおいて特に有効である。
コードは \url{https://github.com/hutaihang/ToMe} で公開される。
関連論文リスト
- PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Box It to Bind It: Unified Layout Control and Attribute Binding in T2I
Diffusion Models [28.278822620442774]
Box-it-to-Bind-it (B2B) は、テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するためのトレーニング不要なアプローチである。
B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスという、T2Iの3つの重要な課題をターゲットにしている。
B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-02-27T21:51:32Z) - DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization [31.960807999301196]
本稿では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。
具体的には、DreamMatcherはターゲットの値をセマンティックマッチングで整列された参照値に置き換えるが、構造パスは変わらない。
また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。
論文 参考訳(メタデータ) (2024-02-15T09:21:16Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Learning Implicit Entity-object Relations by Bidirectional Generative
Alignment for Multimodal NER [43.425998295991135]
本稿では,BGA-MNERという双方向生成アライメント手法を提案する。
提案手法は,推論中に画像入力を伴わずに最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-08-03T10:37:20Z) - Context-LGM: Leveraging Object-Context Relation for Context-Aware Object
Recognition [48.5398871460388]
本稿では,オブジェクト・コンテキスト関係を階層的にモデル化する新しいコンテキスト潜在生成モデル(Contextual Latent Generative Model,Context-LGM)を提案する。
文脈的特徴を推定するために、変数自動エンコーダ(VAE)の目的関数を再構成し、対象物に対する後続条件付き分布として文脈的特徴を学習する。
本手法の有効性は,2つのコンテキスト認識オブジェクト認識タスクにおける最先端性能によって検証される。
論文 参考訳(メタデータ) (2021-10-08T11:31:58Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。