論文の概要: SOWing Information: Cultivating Contextual Coherence with MLLMs in Image Generation
- arxiv url: http://arxiv.org/abs/2411.19182v1
- Date: Thu, 28 Nov 2024 14:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:14.367089
- Title: SOWing Information: Cultivating Contextual Coherence with MLLMs in Image Generation
- Title(参考訳): SOWing Information:画像生成におけるMLLMとコンテキストコヒーレンスを育成する
- Authors: Yuhan Pei, Ruoyu Wang, Yongqi Yang, Ye Zhu, Olga Russakovsky, Yu Wu,
- Abstract要約: 拡散生成モデルは、デノイング軌道に沿ったデータ空間におけるランダムウォークをシミュレートする。
これにより、情報は地域間で拡散し、結果をもたらす。
しかし、拡散モデルにおける情報拡散のカオス的・乱れた性質は、しばしば画像領域間の望ましくない干渉を引き起こし、劣化した詳細保存と文脈的矛盾を引き起こす。
画像全体を通して視覚的・意味的コヒーレンスを維持しつつ、画素レベルの条件忠実性を達成するために、乱れた拡散をテキストビジョン・画像生成(TV2I)タスクの強力なツールとして再定義する。
- 参考スコア(独自算出の注目度): 29.49217721233131
- License:
- Abstract: Originating from the diffusion phenomenon in physics, which describes the random movement and collisions of particles, diffusion generative models simulate a random walk in the data space along the denoising trajectory. This allows information to diffuse across regions, yielding harmonious outcomes. However, the chaotic and disordered nature of information diffusion in diffusion models often results in undesired interference between image regions, causing degraded detail preservation and contextual inconsistency. In this work, we address these challenges by reframing disordered diffusion as a powerful tool for text-vision-to-image generation (TV2I) tasks, achieving pixel-level condition fidelity while maintaining visual and semantic coherence throughout the image. We first introduce Cyclic One-Way Diffusion (COW), which provides an efficient unidirectional diffusion framework for precise information transfer while minimizing disruptive interference. Building on COW, we further propose Selective One-Way Diffusion (SOW), which utilizes Multimodal Large Language Models (MLLMs) to clarify the semantic and spatial relationships within the image. Based on these insights, SOW combines attention mechanisms to dynamically regulate the direction and intensity of diffusion according to contextual relationships. Extensive experiments demonstrate the untapped potential of controlled information diffusion, offering a path to more adaptive and versatile generative models in a learning-free manner.
- Abstract(参考訳): 粒子のランダムな動きと衝突を記述した物理学における拡散現象から派生した拡散生成モデルは、認知軌道に沿ったデータ空間におけるランダムウォークをシミュレートする。
これにより、情報は地域間で拡散し、調和した結果をもたらす。
しかし、拡散モデルにおける情報拡散のカオス的・乱れた性質は、しばしば画像領域間の望ましくない干渉を引き起こし、劣化した詳細保存と文脈的矛盾を引き起こす。
本研究では,画像全体の視覚的・意味的コヒーレンスを維持しつつ,画素レベルの条件忠実性を達成するために,乱れた拡散をテキストビジョン・画像生成(TV2I)タスクの強力なツールとすることで,これらの課題に対処する。
最初に循環一方向拡散(COW)を導入し,破壊的干渉を最小限に抑えつつ,高精度な情報伝達のための一方向拡散フレームワークを効率よく提供する。
さらに,COWに基づくSOW(Selective One-Way Diffusion)を提案し,MLLM(Multimodal Large Language Models)を用いて画像内の意味的・空間的関係を明らかにする。
これらの知見に基づいて、SOWは注意機構を組み合わせて、文脈的関係に応じて拡散の方向と強度を動的に調節する。
広範囲にわたる実験は、制御された情報拡散の未解決の可能性を示し、学習自由な方法でより適応的で汎用的な生成モデルへの道を提供する。
関連論文リスト
- Diffusion Prism: Enhancing Diversity and Morphology Consistency in Mask-to-Image Diffusion [4.0301593672451]
Diffusion Prismは、バイナリマスクを現実的で多様なサンプルに変換する、トレーニング不要のフレームワークである。
少量の人工ノイズが画像デノゲーションプロセスに大きく役立つことを探る。
論文 参考訳(メタデータ) (2025-01-01T20:04:25Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。
本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。
この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。
スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文 参考訳(メタデータ) (2023-12-07T16:26:23Z) - Global Structure-Aware Diffusion Process for Low-Light Image Enhancement [64.69154776202694]
本稿では,低照度画像強調問題に対処する拡散型フレームワークについて検討する。
我々は、その固有のODE-軌道の正規化を提唱する。
実験により,提案手法は低照度化において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-26T17:01:52Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Diffusion Models Generate Images Like Painters: an Analytical Theory of Outline First, Details Later [1.8416014644193066]
画像生成の基盤となる逆拡散過程には,以下の特性がある。
個々の軌道は低次元であり、2次元回転に似ている」。
本手法は,事前学習したモデルに対する画像生成の初期フェーズを正確に記述する。
論文 参考訳(メタデータ) (2023-03-04T20:08:57Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Diffusion-GAN: Training GANs with Diffusion [135.24433011977874]
GAN(Generative Adversarial Network)は、安定してトレーニングすることが難しい。
フォワード拡散チェーンを利用してインスタンスノイズを生成する新しいGANフレームワークであるDiffusion-GANを提案する。
我々は,Diffusion-GANにより,最先端のGANよりも高い安定性とデータ効率で,よりリアルな画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-06-05T20:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。