論文の概要: Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement
- arxiv url: http://arxiv.org/abs/2406.16272v1
- Date: Mon, 24 Jun 2024 02:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:22:56.099672
- Title: Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement
- Title(参考訳): 注意誘導特徴強調によるテキスト・画像拡散モデルにおける破滅的偏差の修復
- Authors: Zhiyuan Chang, Mingyang Li, Junjie Wang, Yi Liu, Qing Wang, Yang Liu,
- Abstract要約: テキスト・ツー・イメージ拡散モデル(T2I DM)は入力プロンプトと完全に一致しない画像を生成し、意味的な矛盾をもたらす。
本稿では,T2I DMにおける破滅現象に対処するため,Pacher という自動修復手法を提案する。
- 参考スコア(独自算出の注目度): 16.022418168167007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image Diffusion Models (T2I DMs) have garnered significant attention for their ability to generate high-quality images from textual descriptions. However, these models often produce images that do not fully align with the input prompts, resulting in semantic inconsistencies. The most prominent issue among these semantic inconsistencies is catastrophic-neglect, where the images generated by T2I DMs miss key objects mentioned in the prompt. We first conduct an empirical study on this issue, exploring the prevalence of catastrophic-neglect, potential mitigation strategies with feature enhancement, and the insights gained. Guided by the empirical findings, we propose an automated repair approach named Patcher to address catastrophic-neglect in T2I DMs. Specifically, Patcher first determines whether there are any neglected objects in the prompt, and then applies attention-guided feature enhancement to these neglected objects, resulting in a repaired prompt. Experimental results on three versions of Stable Diffusion demonstrate that Patcher effectively repairs the issue of catastrophic-neglect, achieving 10.1%-16.3% higher Correct Rate in image generation compared to baselines.
- Abstract(参考訳): テキストから画像への拡散モデル(T2I DM)は、テキスト記述から高品質な画像を生成する能力において、大きな注目を集めている。
しかし、これらのモデルはしばしば入力プロンプトと完全に一致しないイメージを生成し、意味的な矛盾をもたらす。
これらの意味的不整合の中で最も顕著な問題は破滅的直視であり、そこではT2I DMによって生成された画像がプロンプトで言及されたキーオブジェクトを見逃す。
まず, この問題について実証的研究を行い, 破滅的ネグレクトの有病率, 機能強化を伴う潜在的な緩和戦略, 得られた知見について考察した。
本研究は,T2I DMにおける破滅性ネグレクトに対処するため,Pacher という自動修復法を提案する。
特に、パッチャーは最初に、そのプロンプトに無視された物体があるかどうかを判断し、その後、これら無視された物体に注意誘導された特徴強化を適用し、修正されたプロンプトを導いた。
3種類の安定拡散実験の結果、パッチャーは破滅性ネグレクトの問題を効果的に修復し、10.1%-16.3%の補正率を達成した。
関連論文リスト
- Structural damage detection via hierarchical damage information with volumetric assessment [3.1033928913175766]
検出後、検出された損傷のマニュアル評価に依存することが課題である。
Guided-DetNetは、GAM(Generative Attention Module)、階層的除去アルゴリズム(Hierarchical Elimination Algorithm)、VCVA(Volumetric Contour Visual Assessment)によって特徴付けられる。
Guided-DetNetは、トリプル分類タスクにおいて最もよく比較されたモデルよりも3%以下で、メトリクスの異なる二重検出タスクでは2%以下で優れていた。
論文 参考訳(メタデータ) (2024-07-29T04:33:04Z) - Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models [36.984151318293726]
本稿では、上記の問題に対処するために、オブジェクト条件付きエネルギーベースアテンションマップアライメント(EBAMA)手法を提案する。
パラメータ化エネルギーベースモデルのログ類似度を最大化することにより,オブジェクト中心の属性結合損失が自然に発生することを示す。
提案手法は,拡散モデルのテキスト制御画像編集能力を一層向上させる。
論文 参考訳(メタデータ) (2024-04-10T23:30:54Z) - Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset [7.1083241462091165]
従来の欠陥分類アプローチは2つの障壁に直面している。
不十分なトレーニングデータと不安定なデータ品質。
画像上に記録されたリッチなデータ記述を含む,欠陥分類のための特別なデータセットを提案するが,欠陥特徴を直接学習するのは困難である。
論文 参考訳(メタデータ) (2024-04-08T04:17:27Z) - Adversarial Testing for Visual Grounding via Image-Aware Property
Reduction [12.745111000109178]
PEElingは、画像認識特性の低減によるテキスト摂動手法であり、視覚的グラウンドリングモデルの対角テストを行う。
マルチモーダルインパクトスコア(MMI)は21.4%に達し、画像やテキストの最先端のベースラインを8.2%から15.1%上回っている。
論文 参考訳(メタデータ) (2024-03-02T08:03:42Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。