論文の概要: Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
- arxiv url: http://arxiv.org/abs/2412.15213v1
- Date: Thu, 19 Dec 2024 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:02.804012
- Title: Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
- Title(参考訳): 単語からピクセルへのフロー: クロスモダリティ進化のためのフレームワーク
- Authors: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh,
- Abstract要約: クロスモーダルフローマッチングのための汎用的でシンプルなフレームワークであるCrossFlowを提案する。
本稿では、入力データに変分法を適用することの重要性を示し、フリーガイダンスを実現する方法を提案する。
また,本手法の一般化可能性を示すため,CrossFlowは多種多様なクロスモーダル/イントラモーダルマッピングタスクの最先端性に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 14.57591222028278
- License:
- Abstract: Diffusion models, and their generalization, flow matching, have had a remarkable impact on the field of media generation. Here, the conventional approach is to learn the complex mapping from a simple source distribution of Gaussian noise to the target media distribution. For cross-modal tasks such as text-to-image generation, this same mapping from noise to image is learnt whilst including a conditioning mechanism in the model. One key and thus far relatively unexplored feature of flow matching is that, unlike Diffusion models, they are not constrained for the source distribution to be noise. Hence, in this paper, we propose a paradigm shift, and ask the question of whether we can instead train flow matching models to learn a direct mapping from the distribution of one modality to the distribution of another, thus obviating the need for both the noise distribution and conditioning mechanism. We present a general and simple framework, CrossFlow, for cross-modal flow matching. We show the importance of applying Variational Encoders to the input data, and introduce a method to enable Classifier-free guidance. Surprisingly, for text-to-image, CrossFlow with a vanilla transformer without cross attention slightly outperforms standard flow matching, and we show that it scales better with training steps and model size, while also allowing for interesting latent arithmetic which results in semantically meaningful edits in the output space. To demonstrate the generalizability of our approach, we also show that CrossFlow is on par with or outperforms the state-of-the-art for various cross-modal / intra-modal mapping tasks, viz. image captioning, depth estimation, and image super-resolution. We hope this paper contributes to accelerating progress in cross-modal media generation.
- Abstract(参考訳): 拡散モデルとその一般化であるフローマッチングは、メディア生成の分野に顕著な影響を与えた。
ここでは,ガウス雑音の簡単な音源分布から対象メディア分布への複素写像の学習を行う。
テキスト・ツー・イメージ生成のようなクロスモーダルなタスクでは、モデルに条件付け機構を含めながら、このノイズから画像へのマッピングが学習される。
フローマッチングの重要な特徴は、拡散モデルとは異なり、ソース分布がノイズであることを制約しないことである。
そこで本研究では,フローマッチングモデルを用いて,あるモードの分布から他のモードの分布への直接マッピングを学習できるかどうかを問うパラダイムシフトを提案する。
クロスモーダルフローマッチングのための汎用的でシンプルなフレームワークであるCrossFlowを提案する。
本稿では,入力データに変分エンコーダを適用することの重要性を示す。
意外なことに、テキストから画像への変換では、バニラ変換器を用いたCrossFlowは、標準的なフローマッチングよりも若干優れており、トレーニングステップやモデルサイズに優れたスケールを示しながら、出力空間で意味のある編集を行う興味深い潜時演算を可能にしている。
提案手法の一般化可能性を示すため,CrossFlowは様々なクロスモーダル/イントラモーダルマッピングタスク,viz.画像キャプション,深度推定,画像超解像に対して,最先端の手法と同等あるいは優れることを示す。
本論文は, クロスモーダルメディア生成の進展に寄与することを願っている。
関連論文リスト
- Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images [14.236580915897585]
RSICCは、両時間的リモートセンシング画像ペア間の意味的変化を記述するために、人間のような言語を生成することを目的としている。
拡散モデルの顕著な生成力に着想を得て, RSICCの確率的拡散モデルを提案する。
学習過程において,マルコフ連鎖の下で実字幕分布から標準ガウス分布への分布を学習するために,クロスモーダル特徴を条件とした雑音予測器を構築する。
テスト段階では、よく訓練されたノイズ予測器が分布の平均値を推定し、段階的に変化キャプションを生成する。
論文 参考訳(メタデータ) (2024-05-21T15:44:31Z) - Diffusion based Zero-shot Medical Image-to-Image Translation for Cross Modality Segmentation [18.895926089773177]
クロスモダリティ画像セグメンテーションは、ソースモダリティで設計された手法を用いて、ターゲットモダリティをセグメンテーションすることを目的としている。
深層生成モデルは、対象のモダリティ画像をソースモダリティに変換することで、モダリティのセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-04-01T13:23:04Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Augmented Bridge Matching [32.668433085737036]
フローとブリッジマッチングのプロセスは、任意のデータ分布の間を補間することができる。
マッチングプロセスの簡単な変更により,速度場を増大させることで,この結合が回復することを示す。
画像翻訳タスクの混合学習における拡張の効率について説明する。
論文 参考訳(メタデータ) (2023-11-12T22:42:34Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。