Fugu-MT 論文翻訳(概要): Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis

論文の概要: Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis

arxiv url: http://arxiv.org/abs/2411.16503v1
Date: Mon, 25 Nov 2024 15:40:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.860078
Title: Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis
Title（参考訳）: テキスト・画像合成における意味的忠実度向上のためのノイズ拡散
Authors: Boming Miao, Chunxiao Li, Xiaoxiao Wang, Andi Zhang, Rui Sun, Zizhe Wang, Yao Zhu,
Abstract要約: 本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
参考スコア（独自算出の注目度）: 9.11767497956649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have achieved impressive success in generating photorealistic images, but challenges remain in ensuring precise semantic alignment with input prompts. Optimizing the initial noisy latent offers a more efficient alternative to modifying model architectures or prompt engineering for improving semantic alignment. A latest approach, InitNo, refines the initial noisy latent by leveraging attention maps; however, these maps capture only limited information, and the effectiveness of InitNo is highly dependent on the initial starting point, as it tends to converge on a local optimum near this point. To this end, this paper proposes leveraging the language comprehension capabilities of large vision-language models (LVLMs) to guide the optimization of the initial noisy latent, and introduces the Noise Diffusion process, which updates the noisy latent to generate semantically faithful images while preserving distribution consistency. Furthermore, we provide a theoretical analysis of the condition under which the update improves semantic faithfulness. Experimental results demonstrate the effectiveness and adaptability of our framework, consistently enhancing semantic alignment across various diffusion models. The code is available at https://github.com/Bomingmiao/NoiseDiffusion.
Abstract（参考訳）: 拡散モデルは、フォトリアリスティック画像の生成において顕著な成功を収めてきたが、入力プロンプトと正確にセマンティックアライメントを確実にすることが課題である。初期ノイズラテントを最適化することは、モデルアーキテクチャの変更や、セマンティックアライメントを改善するためのエンジニアリングの促進に、より効率的な代替手段を提供する。最新のアプローチであるInitNoは、アテンションマップを利用することで、初期ノイズの潜伏を洗練させるが、これらのマップは限られた情報のみをキャプチャし、InitNoの有効性は、この点に近い局所的な最適点に収束する傾向があるため、初期開始点に大きく依存する。そこで本稿では,大規模視覚言語モデル(LVLM)の言語理解機能を活用し,ノイズ拡散プロセスを提案する。さらに,更新によって意味的忠実度が向上する条件を理論的に分析する。実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。コードはhttps://github.com/Bomingmiao/NoiseDiffusion.comで入手できる。

関連論文リスト

GTMA: Dynamic Representation Optimization for OOD Vision-Language Models [10.940718051047023]
VLM(Vision-Matching Model)は、アウト・オブ・ディストリビューション(OOD)の概念がクロスモーダルアライメントの崩壊を引き起こすような、オープンワールドなアプリケーションに苦しむ。本稿では,GTMA(Guid Target-Language Adaptation)フレームワークを通じて実現された動的表現最適化を提案する。 ImageNet-RとVISTA-Beyondベンチマークの実験では、GTMAはゼロショットと少数ショットのOOD精度を、ベースVLMよりも最大15～20%向上している。
論文参考訳（メタデータ） (2025-12-20T20:44:07Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation [43.48099716183503]
本稿では,拡散に基づく画像から画像への変換に適した学習自由なアプローチを提案する。本手法は,既存の画像から画像への翻訳手法に容易に組み込むことができる。
論文参考訳（メタデータ） (2024-09-12T14:30:45Z)
TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。 TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-07T08:52:21Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文参考訳（メタデータ） (2024-04-06T14:56:59Z)
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-11T02:18:27Z)
JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文参考訳（メタデータ） (2023-12-20T08:05:57Z)
Improving Diffusion-based Image Translation using Asymmetric Gradient Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-07T12:56:56Z)
RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文参考訳（メタデータ） (2023-05-31T06:59:21Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。