論文の概要: FullFlow: Upgrading Text-to-Image Flow Matching Models for Bidirectional Vision--Language Generation
- arxiv url: http://arxiv.org/abs/2605.20316v1
- Date: Tue, 19 May 2026 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.296216
- Title: FullFlow: Upgrading Text-to-Image Flow Matching Models for Bidirectional Vision--Language Generation
- Title(参考訳): FullFlow:双方向ビジョン・ランゲージ生成のためのテキストと画像のフローマッチングモデルの改良
- Authors: Eric Tillmann Bill, Enis Simsar, Alessio Tonioni, Thomas Hofmann,
- Abstract要約: EmphFullFlowは、事前訓練された修正フローのテキスト・トゥ・イメージ・モデルを双方向の視覚言語生成装置にアップグレードする、パラメータ効率のよいレシピである。
FullFlowは、イメージを彼らのネイティブな継続的フローに保持し、テキストに個別の挿入プロセスを追加する。
異なる画像とテキストのタイムステップは、推論を2次元生成空間における軌跡選択に変換する。
- 参考スコア(独自算出の注目度): 39.06289388005218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern text-to-image diffusion models encode rich visual priors, but expose them only through one-way text-conditioned generation. Existing unified vision--language models derived from them recover bidirectional capability through large-scale joint pretraining or substantial retraining of the text pathway, discarding the strong image prior the text-to-image backbone already encodes. We introduce \emph{FullFlow}, a parameter-efficient recipe that upgrades a pretrained rectified-flow text-to-image model into a bidirectional vision--language generator by training only LoRA adapters and lightweight text heads. FullFlow keeps images in their native continuous flow and adds a discrete insertion process for text. Separate image and text timesteps turn inference into trajectory selection in a two-dimensional generative space, enabling text$\rightarrow$image, image$\rightarrow$text, joint sampling, and partial-text prediction with a single backbone. On Stable Diffusion 3 (SD3) under an identical trainable-parameter count and matched LoRA rank, FullFlow improves text$\rightarrow$image FID from $62.7$ to $31.6$ and image$\rightarrow$text CIDEr from $2.0$ to $99.4$ over a LoRA equivalent following the previous SOTA formulation (Dual Diffusion) at matched wall-clock training time, while reducing peak VRAM from ${\sim}84$\,GB to ${\sim}38$\,GB and raising throughput by ${\sim}8\times$ on two RTX A5000 GPUs in under 24 hours, training only ${\sim}5\%$ of the backbone parameters. The same recipe transfers to FLUX.1-dev and supports downstream VQA through partial-text generation. These results show that strong bidirectional vision--language capability can be unlocked from pretrained text-to-image flow models without full multimodal pretraining.
- Abstract(参考訳): 現代のテキストから画像への拡散モデルは、リッチな視覚的事前情報を符号化するが、一方的なテキスト条件付き生成によってのみ公開する。
既存の統合視覚言語モデルは、テキストパスの大規模な共同事前訓練または実質的な再訓練を通じて双方向の能力を回復し、既にエンコードされているテキスト・ツー・イメージのバックボーンよりも前の強い画像を捨てる。
本稿では,LoRAアダプタと軽量テキストヘッドのみをトレーニングすることで,事前トレーニング済みの修正フローテキスト-画像モデルから双方向の視覚言語ジェネレータにアップグレードするパラメータ効率の高いレシピである \emph{FullFlow} を紹介する。
FullFlowは、イメージを彼らのネイティブな継続的フローに保持し、テキストに個別の挿入プロセスを追加する。
分離された画像とテキストのタイムステップは、推論を2次元生成空間における軌跡選択に変換し、text$\rightarrow$image、 image$\rightarrow$text、ジョイントサンプリング、および1つのバックボーンによる部分テキスト予測を可能にする。
安定拡散3(SD3)では、同じトレーニング可能なパラメータカウントと一致したLoRAランクの下で、FullFlowはテキスト$\rightarrow$image FIDを62.7$から31.6$に改善し、画像$\rightarrow$text CIDErを$2.0$から$99.4$に改善し、マッチしたウォールクロックのトレーニング時間における以前のSOTAの定式化(Dual Diffusion)に続き、ピーク時のVRAMを${\sim}84$から${\sim}38$に削減し、スループットを${\sim}8\times$を2つのRTX A5000 GPU上で24時間以下のトレーニングで引き上げる。
同じレシピはFLUX.1-devに転送され、部分テキスト生成を通じて下流のVQAをサポートする。
これらの結果から, マルチモーダル事前学習を必要とせず, 事前学習したテキスト・イメージ・フローモデルから, 強力な双方向視覚言語機能を解き放つことが可能であることが示唆された。
関連論文リスト
- Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training [16.148088520940796]
データ効率のよい2段階トレーニングフレームワークである UMM (IOMM) の $textbf Image-Only Training を提案する。
第1ステージは、豊富なラベル付けされていない画像のみのデータを使用して、ビジュアル生成コンポーネント$textbfexclusively$を事前トレーニングする。
第2段階は、ラベルのない画像と小さなキュレートされたテキストイメージペアを使ってモデルを微調整し、命令アライメントと生成品質を改善した。
論文 参考訳(メタデータ) (2026-03-17T05:41:48Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。
X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文 参考訳(メタデータ) (2022-11-22T16:48:01Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。