論文の概要: ReGround: Improving Textual and Spatial Grounding at No Cost
- arxiv url: http://arxiv.org/abs/2403.13589v1
- Date: Wed, 20 Mar 2024 13:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:47:59.791865
- Title: ReGround: Improving Textual and Spatial Grounding at No Cost
- Title(参考訳): ReGround: テキストと空間グラウンドを無償で改善
- Authors: Yuseung Lee, Minhyuk Sung,
- Abstract要約: 空間的接地は、ゲートされた自己意図から横断的な意図への逐次的な流れによって、しばしばテキスト的接地よりも優れている。
このようなバイアスは、ネットワークアーキテクチャを単に書き換えることによって、どちらも精度を犠牲にすることなく、大幅に軽減できることを示す。
- 参考スコア(独自算出の注目度): 13.005433389383057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When an image generation process is guided by both a text prompt and spatial cues, such as a set of bounding boxes, do these elements work in harmony, or does one dominate the other? Our analysis of a pretrained image diffusion model that integrates gated self-attention into the U-Net reveals that spatial grounding often outweighs textual grounding due to the sequential flow from gated self-attention to cross-attention. We demonstrate that such bias can be significantly mitigated without sacrificing accuracy in either grounding by simply rewiring the network architecture, changing from sequential to parallel for gated self-attention and cross-attention. This surprisingly simple yet effective solution does not require any fine-tuning of the network but significantly reduces the trade-off between the two groundings. Our experiments demonstrate significant improvements from the original GLIGEN to the rewired version in the trade-off between textual grounding and spatial grounding.
- Abstract(参考訳): テキストプロンプトと境界ボックスのような空間的手がかりの両方によって画像生成プロセスが導かれるとき、これらの要素は調和して機能するか、一方が他方を支配しているのか?
U-Netにゲート自己アテンションを組み込んだ事前学習画像拡散モデルの解析により, ゲート自己アテンションからクロスアテンションへの逐次的な流れにより, 空間グラウンドリングがテキストグラウンドリングを上回ることが判明した。
このようなバイアスは、単にネットワークアーキテクチャを書き換え、順序から並列に切り換えて、ゲートされた自己注意とクロスアテンションのいずれにおいても、精度を犠牲にすることなく、大幅に軽減できることを示す。
この驚くほど単純で効果的なソリューションは、ネットワークの微調整を必要としないが、2つの基盤間のトレードオフを著しく削減する。
実験では, テキストグラウンドと空間グラウンドのトレードオフにおいて, 元のGLIGENから再配線版への大幅な改良が示された。
関連論文リスト
- GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation [11.517082612850443]
拡散変換器(DiT)を用いたテキスト・画像生成のための訓練不要な空間接地手法であるGrounDiTを紹介する。
我々はTransformerアーキテクチャの柔軟性を活用し、DiTが各バウンディングボックスに対応するノイズの多いパッチを生成できることを実証する。
提案手法は,意味的共有(semantic sharing)と呼ぶDiTの興味深い性質に基づいている。
論文 参考訳(メタデータ) (2024-10-27T15:30:45Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - SyntStereo2Real: Edge-Aware GAN for Remote Sensing Image-to-Image Translation while Maintaining Stereo Constraint [1.8749305679160366]
現在の手法では、2つのネットワーク、未ペア画像間翻訳ネットワークとステレオマッチングネットワークを組み合わせている。
両タスクを同時に処理するエッジ対応のGANネットワークを提案する。
我々は,既存のモデルよりも定性的かつ定量的に優れた結果が得られ,その適用性は多様な領域にまで及んでいることを実証した。
論文 参考訳(メタデータ) (2024-04-14T14:58:52Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - Weakly-Supervised Visual-Textual Grounding with Semantic Prior
Refinement [52.80968034977751]
画像-文ペアのみを用いて、弱い教師付き視覚-テクスチュアルグラウンドは、各エンティティの言及の領域-フレーズ対応を学習することを目的としている。
本稿では,2つの主モジュールの出力を組み合わせて予測を行うセマンティック・プライオリファインメント・モデル(SPRM)を提案する。
このアプローチでは、Flickr30k EntitiesとReferItの2つの一般的なデータセットに対する最先端の結果が9.6%の絶対的な改善で示されている。
論文 参考訳(メタデータ) (2023-05-18T12:25:07Z) - Few Shot Generative Model Adaption via Relaxed Spatial Structural
Alignment [130.84010267004803]
限られたデータでGAN(Generative Adversarial Network)を訓練することは難しい課題である。
実現可能な解決策は、大規模なソースドメインで十分に訓練されたGANから始め、ターゲットドメインにいくつかのサンプルで適応することである。
本研究では,適応時の対象生成モデルのキャリブレーションを行うための緩和された空間構造アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T14:26:25Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。