論文の概要: Divide & Bind Your Attention for Improved Generative Semantic Nursing
- arxiv url: http://arxiv.org/abs/2307.10864v3
- Date: Sun, 14 Jul 2024 16:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 05:08:47.317049
- Title: Divide & Bind Your Attention for Improved Generative Semantic Nursing
- Title(参考訳): ジェネレーティブ・セマンティック・ナーシングを改善するためのディバイドとバインド
- Authors: Yumeng Li, Margret Keuper, Dan Zhang, Anna Khoreva,
- Abstract要約: 複数のエンティティを含む複雑なプロンプトやシナリオによって生じる課題に対処するために、Divide & Bindを提案する。
我々のアプローチは、複雑なプロンプトからの属性アライメントを改善して、所望のオブジェクトを忠実に合成する能力において際立っている。
- 参考スコア(独自算出の注目度): 19.67265541441422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging large-scale text-to-image generative models, e.g., Stable Diffusion (SD), have exhibited overwhelming results with high fidelity. Despite the magnificent progress, current state-of-the-art models still struggle to generate images fully adhering to the input prompt. Prior work, Attend & Excite, has introduced the concept of Generative Semantic Nursing (GSN), aiming to optimize cross-attention during inference time to better incorporate the semantics. It demonstrates promising results in generating simple prompts, e.g., "a cat and a dog". However, its efficacy declines when dealing with more complex prompts, and it does not explicitly address the problem of improper attribute binding. To address the challenges posed by complex prompts or scenarios involving multiple entities and to achieve improved attribute binding, we propose Divide & Bind. We introduce two novel loss objectives for GSN: a novel attendance loss and a binding loss. Our approach stands out in its ability to faithfully synthesize desired objects with improved attribute alignment from complex prompts and exhibits superior performance across multiple evaluation benchmarks.
- Abstract(参考訳): 新たな大規模テキスト・画像生成モデル、例えば、安定拡散(SD)は、高い忠実度で圧倒的な結果を示した。
素晴らしい進歩にもかかわらず、現在の最先端モデルは入力プロンプトに完全に付着した画像を生成するのに依然として苦労している。
Attend & Exciteは、推論時間におけるクロスアテンションを最適化し、セマンティックスをよりうまく組み込むことを目的として、ジェネレーティブ・セマンティック・ナーシング(GSN)の概念を導入した。
これは単純なプロンプト、例えば「猫と犬」を生成できる有望な結果を示す。
しかし、その有効性はより複雑なプロンプトを扱う際に低下し、不適切な属性結合の問題に明示的に対処するわけではない。
複数のエンティティを含む複雑なプロンプトやシナリオによって引き起こされる課題に対処し、属性バインディングの改善を実現するために、Divide & Bindを提案する。
GSNの新たな損失目標として,新規の出席損失と結合損失の2つを紹介した。
提案手法は、複雑なプロンプトからの属性アライメントを改善した所望のオブジェクトを忠実に合成し、複数の評価ベンチマークで優れた性能を示す。
関連論文リスト
- XPrompt:Explaining Large Language Model's Generation via Joint Prompt Attribution [26.639271355209104]
LLM(Large Language Models)は複雑なテキスト生成タスクにおいて顕著なパフォーマンスを示す。
生成したコンテンツに対する入力プロンプトの寄与は、まだ人間には明らかでない。
本稿では,共同プロンプト帰属型XPromptに基づく実例説明フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T18:16:41Z) - RepSGG: Novel Representations of Entities and Relationships for Scene
Graph Generation [27.711809069547808]
RepSGGは、対象をクエリとして、オブジェクトをキーとして、そしてそれらの関係を、ペアワイズクエリとキー間の最大の注意重みとして定式化する。
RepSGGは、エンティティとリレーションシップのためのよりきめ細やかな表現力によって、関係推論のための意味的識別的および代表的ポイントをサンプリングすることを学ぶ。
RepSGGは、高速な推論速度でVisual GenomeとOpen Images V6データセットの最先端または同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-06T05:37:19Z) - Linguistic Binding in Diffusion Models: Enhancing Attribute
Correspondence through Attention Map Alignment [87.1732801732059]
テキスト条件付き画像生成モデルは、エンティティとその視覚的属性間の誤った関連をしばしば生成する。
本稿では、まず、エンティティとその修飾子を識別するプロンプトを構文解析するSynGenを提案する。
新たな1つの挑戦的セットを含む3つのデータセットに対する人間による評価は、現在の技術手法と比較して、SynGenの大幅な改善を示している。
論文 参考訳(メタデータ) (2023-06-15T06:21:44Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - A Context-Aware Feature Fusion Framework for Punctuation Restoration [28.38472792385083]
注意力不足を軽減するために,2種類の注意力(FFA)に基づく新しい特徴融合フレームワークを提案する。
一般的なベンチマークデータセットであるIWSLTの実験は、我々のアプローチが効果的であることを示す。
論文 参考訳(メタデータ) (2022-03-23T15:29:28Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。