論文の概要: CritiFusion: Semantic Critique and Spectral Alignment for Faithful Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2512.22681v1
- Date: Sat, 27 Dec 2025 19:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.175419
- Title: CritiFusion: Semantic Critique and Spectral Alignment for Faithful Text-to-Image Generation
- Title(参考訳): CritiFusion: テキスト・画像生成のための意味的批評とスペクトルアライメント
- Authors: ZhenQi Chen, TsaiChing Ni, YuanFu Yang,
- Abstract要約: CritiFusionは、マルチモーダルなセマンティックな批判機構と周波数領域の改良を統合し、テキスト間の一貫性と詳細性を改善する。
CritiCoreモジュールは、視覚言語モデルと複数の大きな言語モデルを活用して、プロンプトコンテキストを強化する。
CritiFusionは、人間の嗜好スコアと美的評価を継続的に向上させる。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image diffusion models have achieved remarkable visual fidelity but often struggle with semantic alignment to complex prompts. We introduce CritiFusion, a novel inference-time framework that integrates a multimodal semantic critique mechanism with frequency-domain refinement to improve text-to-image consistency and detail. The proposed CritiCore module leverages a vision-language model and multiple large language models to enrich the prompt context and produce high-level semantic feedback, guiding the diffusion process to better align generated content with the prompt's intent. Additionally, SpecFusion merges intermediate generation states in the spectral domain, injecting coarse structural information while preserving high-frequency details. No additional model training is required. CritiFusion serves as a plug-in refinement stage compatible with existing diffusion backbones. Experiments on standard benchmarks show that our method notably improves human-aligned metrics of text-to-image correspondence and visual quality. CritiFusion consistently boosts performance on human preference scores and aesthetic evaluations, achieving results on par with state-of-the-art reward optimization approaches. Qualitative results further demonstrate superior detail, realism, and prompt fidelity, indicating the effectiveness of our semantic critique and spectral alignment strategy.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ拡散モデルは目覚ましい視覚的忠実さを達成しているが、複雑なプロンプトに対する意味的アライメントに苦慮することが多い。
CritiFusionは、マルチモーダルなセマンティック・クリティーク・メカニズムと周波数領域の改良を統合し、テキスト間の一貫性と詳細性を改善する新しい推論時フレームワークである。
提案したCritiCoreモジュールは、視覚言語モデルと複数の大規模言語モデルを利用して、プロンプトコンテキストを強化し、高レベルのセマンティックフィードバックを生成する。
さらに、SpecFusionはスペクトル領域の中間生成状態をマージし、高周波の詳細を保持しながら粗い構造情報を注入する。
追加のモデルトレーニングは必要ありません。
CritiFusionは既存の拡散バックボーンと互換性のあるプラグイン改良段階として機能する。
標準ベンチマーク実験により,本手法はテキストと画像の対応と視覚的品質の人為的整合度を著しく向上することが示された。
CritiFusionは人間の嗜好スコアと美的評価を継続的に向上させ、最先端の報酬最適化アプローチと同等の結果を得る。
質的な結果は、より優れた詳細、リアリズム、迅速な忠実さを示し、セマンティックな批評とスペクトルアライメント戦略の有効性を示している。
関連論文リスト
- SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation [9.212970624261272]
最先端のテキスト画像モデルは視覚的に印象的な結果をもたらすが、しばしばテキストプロンプトへの正確なアライメントに苦慮する。
本稿では,ターゲットプロンプトに条件付き高精度分布を学習する手法を提案する。
提案手法は,過度な最適化を緩和する微粒化制御を実現することで,デノナイズプロセス中の信号成分を明示的にモデル化する。
論文 参考訳(メタデータ) (2025-08-19T14:31:15Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。