論文の概要: IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance
- arxiv url: http://arxiv.org/abs/2509.26231v1
- Date: Tue, 30 Sep 2025 13:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.143937
- Title: IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance
- Title(参考訳): IMG:過度なマルチモーダル誘導による拡散モデルの校正
- Authors: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi,
- Abstract要約: Implicit Multimodal Guidance(IMG)は、新しい世代ベースのマルチモーダルアライメントフレームワークである。
IMGはミスアライメントを特定し、再アライメント目標をトレーニング可能な目標に定式化する。
IMGはフレキシブルなプラグアンドプレイアダプタとして機能し、ファインチューニングベースのアライメント手法をシームレスに強化する。
- 参考スコア(独自算出の注目度): 74.89810064807142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring precise multimodal alignment between diffusion-generated images and input prompts has been a long-standing challenge. Earlier works finetune diffusion weight using high-quality preference data, which tends to be limited and difficult to scale up. Recent editing-based methods further refine local regions of generated images but may compromise overall image quality. In this work, we propose Implicit Multimodal Guidance (IMG), a novel re-generation-based multimodal alignment framework that requires no extra data or editing operations. Specifically, given a generated image and its prompt, IMG a) utilizes a multimodal large language model (MLLM) to identify misalignments; b) introduces an Implicit Aligner that manipulates diffusion conditioning features to reduce misalignments and enable re-generation; and c) formulates the re-alignment goal into a trainable objective, namely Iteratively Updated Preference Objective. Extensive qualitative and quantitative evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter, seamlessly enhancing prior finetuning-based alignment methods. Our code will be available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
- Abstract(参考訳): 拡散生成画像と入力プロンプトの正確な多重モーダルアライメントを保証することは、長年にわたる課題である。
以前は、高品質な嗜好データを使用して微調整拡散重量を処理していたが、これは制限され、スケールアップが困難になる傾向にある。
近年の編集手法は、生成した画像の局所領域をさらに洗練するが、全体の画質を損なう可能性がある。
本研究では,新たな更新型マルチモーダルアライメントフレームワークであるImplicit Multimodal Guidance (IMG)を提案する。
特に、生成された画像とそのプロンプト、IMGが与えられた場合
a) 誤認を識別するためにMLLM(Multimodal large language model)を使用する。
ロ 拡散条件の特徴を操り、過度な調整を減らし、再生を可能にするインプリシット・アリグナーを導入し、
c) 再調整の目標をトレーニング可能な目的、すなわち反復的に更新された参照対象に定式化する。
SDXL, SDXL-DPO, FLUXの大規模定性的および定量的評価は, IMGが既存のアライメント法より優れていることを示している。
さらに、IMGはフレキシブルなプラグアンドプレイアダプタとして機能し、ファインチューニングベースのアライメント手法をシームレスに強化する。
私たちのコードはhttps://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignmentで公開されます。
関連論文リスト
- Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model [16.850096473419505]
マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。
画像間変換によるモダリティギャップを橋渡しする,新しいマルチモーダル画像登録フレームワークOSDM-MRegを提案する。
論文 参考訳(メタデータ) (2025-04-08T13:32:56Z) - EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM [38.8308841469793]
本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。
我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。
実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:48Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。