論文の概要: FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching
- arxiv url: http://arxiv.org/abs/2604.06757v1
- Date: Wed, 08 Apr 2026 07:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.394066
- Title: FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching
- Title(参考訳): FlowInOne:イメージイン,イメージアウトフローマッチングとしてのマルチモーダル生成の統合
- Authors: Junchao Yi, Rui Zhao, Jiahao Tang, Weixian Lei, Linjie Li, Qisheng Su, Zhengyuan Yang, Lijuan Wang, Xiaofeng Zhu, Alex Jinpeng Wang,
- Abstract要約: FlowInOneは、純粋なビジュアルフローとしてマルチモーダル生成を再構成するフレームワークである。
テキスト・ツー・イメージ生成、レイアウト誘導編集、ビジュアル・インストラクションを1つのコヒーレント・パラダイムで統一する。
オープンソースモデルと競合する商用システムの両方を超越して、すべての統一された生成タスクにおける最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 86.31254356971506
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.
- Abstract(参考訳): マルチモーダル生成は、言語が視覚を指示するが、その内部で推論や生成ができない、テキスト駆動パイプラインによって長い間支配されてきた。
我々は,テキスト記述,空間レイアウト,編集命令を含むすべてのモダリティを,単一の視覚表現に統合できるかどうかを問うことで,このパラダイムに挑戦する。
本稿では,マルチモーダル生成を純粋に視覚的なフローとして再構成し,すべての入力を視覚的なプロンプトに変換し,単一フローマッチングモデルで制御されたクリーンなイメージイン,イメージアウトパイプラインを実現するフレームワークであるFlowInOneを提案する。
この視覚中心の定式化は、クロスモーダルアライメントのボトルネック、ノイズスケジューリング、タスク固有のアーキテクチャブランチを自然に排除し、テキスト・ツー・イメージ生成を統一し、レイアウト誘導編集し、1つのコヒーレントなパラダイムの下で視覚的指示を行う。
これをサポートするために、VisPrompt-5Mという、物理学を意識した力力学や軌道予測を含む様々なタスクにまたがる500万の視覚的プロンプトペアの大規模データセットを紹介し、命令忠実度、空間的精度、視覚的リアリズム、コンテンツ一貫性を評価する厳密な評価ベンチマークであるVP-Benchを紹介した。
大規模な実験により、FlowInOneは、すべての統一された生成タスクにおいて最先端のパフォーマンスを達成し、オープンソースモデルと競合する商用システムの両方を超越し、知覚と創造が単一の連続的な視覚空間内で共存する、完全な視覚中心の生成モデリングのための新しい基盤を確立した。
関連論文リスト
- Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning [59.262311672150055]
プロセス駆動画像生成は多段階のパラダイムで、合成をインターリーブな推論軌道に分解する。
プロセス駆動生成の核となる課題は、中間状態のあいまいさに起因する。
2つの相補的な制約を維持する、密集したステップワイドな監視を通じてこの問題に対処する。
論文 参考訳(メタデータ) (2026-04-06T15:11:57Z) - Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training [68.94182767962914]
プランナとビジュアライザで構成されるフレームワークを導入する。
ビジュアライザは画像の合成を行うのに対し、プランナーはビジュアルコンテンツのための密集したテキスト記述を生成する。
これらのデザインは、長距離テキストコヒーレンスと視覚的一貫性を備えた創発的なインターリーブ生成能力を示すWan-Weaverを生み出している。
論文 参考訳(メタデータ) (2026-03-26T17:50:37Z) - Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-11T06:25:30Z) - EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning [44.254412516852874]
現在の手法では、マルチモーダルプランニングに統一された生成フレームワークを採用できないため、マルチモーダルプランニングでは矛盾する。
提案手法は,動的事前学習と強化アライメントを取り入れた新しいトレーニングパイプラインにより,長期タスクのマルチモーダル計画を実現する。
論文 参考訳(メタデータ) (2025-11-03T10:24:49Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。