論文の概要: I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.10458v1
- Date: Wed, 12 Feb 2025 05:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:01.582019
- Title: I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
- Title(参考訳): I think, therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models (特集:「拡散モデル」)
- Authors: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu,
- Abstract要約: ThinkDiffは、マルチモーダルなインコンテキスト理解と推論機能を備えたテキストから画像への拡散モデルを強化するアライメントパラダイムである。
我々はThinkDiffの精度が19.2%から46.3%に大幅に向上したことを示す。
また、複数の画像やテキストを論理的に一貫性のある画像に合成する際、例外的な性能を示す。
- 参考スコア(独自算出の注目度): 50.34197948438868
- License:
- Abstract: This paper presents ThinkDiff, a novel alignment paradigm that empowers text-to-image diffusion models with multimodal in-context understanding and reasoning capabilities by integrating the strengths of vision-language models (VLMs). Existing multimodal diffusion finetuning methods largely focus on pixel-level reconstruction rather than in-context reasoning, and are constrained by the complexity and limited availability of reasoning-based datasets. ThinkDiff addresses these challenges by leveraging vision-language training as a proxy task, aligning VLMs with the decoder of an encoder-decoder large language model (LLM) instead of a diffusion decoder. This proxy task builds on the observation that the $\textbf{LLM decoder}$ shares the same input feature space with $\textbf{diffusion decoders}$ that use the corresponding $\textbf{LLM encoder}$ for prompt embedding. As a result, aligning VLMs with diffusion decoders can be simplified through alignment with the LLM decoder. Without complex training and datasets, ThinkDiff effectively unleashes understanding, reasoning, and composing capabilities in diffusion models. Experiments demonstrate that ThinkDiff significantly improves accuracy from 19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context reasoning generation, with only 5 hours of training on 4 A100 GPUs. Additionally, ThinkDiff demonstrates exceptional performance in composing multiple images and texts into logically coherent images. Project page: https://mizhenxing.github.io/ThinkDiff.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)の強みを統合することで,マルチモーダルなインコンテキスト理解と推論機能を備えたテキスト間拡散モデルを実現する,新たなアライメントパラダイムであるThinkDiffを提案する。
既存のマルチモーダル拡散微調整法は、コンテキスト内推論よりもピクセルレベルの再構成に重点を置いており、推論に基づくデータセットの複雑さと限られた可用性に制約されている。
ThinkDiffは、視覚言語トレーニングをプロキシタスクとして活用し、VLMを拡散デコーダの代わりにエンコーダ-デコーダ大言語モデル(LLM)のデコーダと整合させることによって、これらの課題に対処する。
このプロキシタスクは、$\textbf{LLM decoder}$と同じ入力特徴空間と$\textbf{diffusion decoders}$が対応する$\textbf{LLM encoder}$を使用して、プロンプト埋め込みを行うという観察に基づいている。
その結果、拡散デコーダとVLMのアライメントは、LLMデコーダとのアライメントにより単純化できる。
複雑なトレーニングとデータセットがなければ、ThinkDiffは拡散モデルにおける理解、推論、構成機能を効果的に解き放つ。
実験の結果、ThinkDiffは、マルチモーダルなインコンテキスト推論生成のためのCoBSATベンチマークにおいて、19.2%から46.3%に大幅に精度を向上し、4つのA100 GPU上でのトレーニングはわずか5時間であった。
さらにThinkDiffは、複数の画像とテキストを論理的に一貫性のある画像に合成する際、例外的なパフォーマンスを示す。
プロジェクトページ: https://mizhenxing.github.io/ThinkDiff.com
関連論文リスト
- Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Transfer Learning for Text Diffusion Models [16.97230119564891]
我々は,大規模言語モデル(LLM)の訓練と展開において,自己回帰(AR)デコーディングを置き換えるためのテキスト拡散の可能性を探る。
我々はAR2Diff'と呼ばれる軽量適応手法を用いて、事前訓練されたARモデルをテキスト拡散モデルに変換する。
論文 参考訳(メタデータ) (2024-01-30T17:11:56Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。
この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文 参考訳(メタデータ) (2023-04-24T14:44:47Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。