論文の概要: OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows
- arxiv url: http://arxiv.org/abs/2510.03506v2
- Date: Thu, 09 Oct 2025 04:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.541326
- Title: OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows
- Title(参考訳): OneFlow: 編集フローを備えた同時混合モードおよびインターリーブ生成
- Authors: John Nguyen, Marton Havasi, Tariq Berrada, Luke Zettlemoyer, Ricky T. Q. Chen,
- Abstract要約: 可変長および同時混合モード生成が可能な最初の非自己回帰型マルチモーダルモデルであるOneFlowを提案する。
テキストと画像生成の間の厳格な因果順序を強制する自己回帰モデルとは異なり、OneFlowは個別のテキストトークンに対する挿入ベースのEdit Flowと、画像潜伏者のためのFlow Matchingを組み合わせる。
- 参考スコア(独自算出の注目度): 59.052955667723985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present OneFlow, the first non-autoregressive multimodal model that enables variable-length and concurrent mixed-modal generation. Unlike autoregressive models that enforce rigid causal ordering between text and image generation, OneFlow combines an insertion-based Edit Flow for discrete text tokens with Flow Matching for image latents. OneFlow enables concurrent text-image synthesis with hierarchical sampling that prioritizes content over grammar. Through controlled experiments across model sizes from 1B to 8B, we demonstrate that OneFlow outperforms autoregressive baselines on both generation and understanding tasks while using up to 50% fewer training FLOPs. OneFlow surpasses both autoregressive and diffusion-based approaches while unlocking new capabilities for concurrent generation, iterative refinement, and natural reasoning-like generation.
- Abstract(参考訳): 可変長および同時混合モード生成が可能な最初の非自己回帰型マルチモーダルモデルであるOneFlowを提案する。
テキストと画像生成の間の厳格な因果順序を強制する自己回帰モデルとは異なり、OneFlowは個別のテキストトークンに対する挿入ベースのEdit Flowと、画像潜伏者のためのFlow Matchingを組み合わせる。
OneFlowは、文法よりもコンテンツを優先する階層的なサンプリングによるテキストイメージの同時合成を可能にする。
1Bから8Bまでのモデルサイズの制御実験を通じて、OneFlowは最大50%のトレーニングFLOPを使用しながら、生成タスクと理解タスクの両方において自己回帰ベースラインを上回っていることを実証した。
OneFlowは、自動回帰と拡散ベースのアプローチの両方を超越し、並列生成、反復的洗練、自然な推論のような生成のための新機能をアンロックする。
関連論文リスト
- Trajectory Stitching for Solving Inverse Problems with Flow-Based Models [68.36374645801901]
フローベースの生成モデルは、逆問題を解決するための強力な先行要因として現れてきた。
1つの初期コードではなく、中間潜在状態の列として軌道を表すMS-Flowを提案する。
画像の回復と逆問題に対するMS-Flowの有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T11:36:41Z) - RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation [12.979642182577157]
平均フロー (MeanFlow) は効率よく高忠実な画像を生成することができるが、その単一関数評価 (1-NFE) 生成は説得力のある結果を得ることができないことが多い。
我々は、粗い1-NFE MeanFlowトランスポートと調整されたノイズ注入改善ステップを統合した、効率的なマルチモーダル生成モデルRMFlowを紹介する。
RMFlowは、1-NFEのみを使用してテキスト・トゥ・イメージ、コンテキスト・トゥ・分子、時系列生成に関する最先端の成果を、ベースラインのMeanFlowsに匹敵する計算コストで達成する。
論文 参考訳(メタデータ) (2026-01-31T18:27:05Z) - NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation [66.92488610008519]
NextFlowは6兆個のインターリーブされたテキストイメージの離散トークンでトレーニングされたデコーダのみの自動回帰トランスフォーマーである。
統合された自己回帰アーキテクチャ内の統一された視覚表現を活用することで、NextFlowはマルチモーダル理解と生成機能を活性化する。
NextFlowは、統一されたモデルと、視覚的品質における特殊な拡散ベースラインの間で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-05T15:27:04Z) - FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows [17.924626622563924]
FlowBindは、あらゆる世代の効率的なフレームワークです。
モダリティ固有の非可逆フローを各モダリティにブリッジして、クロスモーダル情報をキャプチャする共有潜在空間を学習する。
テキスト、画像、オーディオの実験では、FlowBindは6倍のパラメータを必要とせず、従来のメソッドよりも10倍高速にトレーニングできる。
論文 参考訳(メタデータ) (2025-12-17T13:08:18Z) - AlphaFlow: Understanding and Improving MeanFlow Models [74.64465762009475]
その結果,MeanFlowの目的は,トラジェクティブフローマッチングとトラジェクトリ一貫性という2つの部分に分けられることがわかった。
これらの知見に触発されて、軌跡フローマッチング、ショートカットモデル、MeanFlowを統一する目的の広いファミリーである$alpha$-Flowを紹介した。
クラス条件のImageNet-1K 256x256をバニラのDiTバックボーンでスクラッチからトレーニングすると、$alpha$-Flowはスケールと設定でMeanFlowを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-23T17:45:06Z) - Contrastive Flow Matching [61.60002028726023]
コントラストフローマッチング(Contrastive Flow Matching)は、全ての条件フローに対して一意性を明示するフローマッチング対象の拡張である。
提案手法は,任意のサンプル対からの予測フロー間の相違を最大化するための対照的な目的を与える。
比較フローマッチングによるトレーニングモデル(1)は最大9倍のトレーニング速度,(2)は最大5倍のノイズ除去ステップ,(3)FIDを最大8.9以下に向上させる。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - Normalizing Flows are Capable Generative Models [48.31226028595099]
TarFlowはシンプルでスケーラブルなアーキテクチャで、高性能なNFモデルを実現する。
エンドツーエンドのトレーニングは簡単で、ピクセルを直接モデリングして生成することができる。
TarFlowは、画像の確率推定に新たな最先端結果を設定し、以前のベストメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-12-09T09:28:06Z) - OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows [21.677178476653385]
OmniFlowは、テキスト・ツー・イメージ、テキスト・ツー・オーディオ、オーディオ・ツー・イメージ・シンセサイザーなど、あらゆる世代のタスク用に設計された新しい生成モデルである。
テキスト・ツー・イメージやテキスト・ツー・オーディオ合成など、さまざまなタスクにおいて、これまでの任意のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-02T06:13:01Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。