論文の概要: OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows
- arxiv url: http://arxiv.org/abs/2510.03506v1
- Date: Fri, 03 Oct 2025 20:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.078345
- Title: OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows
- Title(参考訳): OneFlow: 編集フローを備えた同時混合モードおよびインターリーブ生成
- Authors: John Nguyen, Marton Havasi, Tariq Berrada, Luke Zettlemoyer, Ricky T. Q. Chen,
- Abstract要約: 可変長および同時混合モード生成が可能な最初の非自己回帰型マルチモーダルモデルであるOneFlowを提案する。
テキストと画像生成の間の厳格な因果順序を強制する自己回帰モデルとは異なり、OneFlowは個別のテキストトークンに対する挿入ベースのEdit Flowと、画像潜伏者のためのFlow Matchingを組み合わせる。
- 参考スコア(独自算出の注目度): 59.052955667723985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present OneFlow, the first non-autoregressive multimodal model that enables variable-length and concurrent mixed-modal generation. Unlike autoregressive models that enforce rigid causal ordering between text and image generation, OneFlow combines an insertion-based Edit Flow for discrete text tokens with Flow Matching for image latents. OneFlow enables concurrent text-image synthesis with hierarchical sampling that prioritizes content over grammar. Through controlled experiments across model sizes from 1B to 8B, we demonstrate that OneFlow outperforms autoregressive baselines on both generation and understanding tasks while using up to 50% fewer training FLOPs. OneFlow surpasses both autoregressive and diffusion-based approaches while unlocking new capabilities for concurrent generation, iterative refinement, and natural reasoning-like generation.
- Abstract(参考訳): 可変長および同時混合モード生成が可能な最初の非自己回帰型マルチモーダルモデルであるOneFlowを提案する。
テキストと画像生成の間の厳格な因果順序を強制する自己回帰モデルとは異なり、OneFlowは個別のテキストトークンに対する挿入ベースのEdit Flowと、画像潜伏者のためのFlow Matchingを組み合わせる。
OneFlowは、文法よりもコンテンツを優先する階層的なサンプリングによるテキストイメージの同時合成を可能にする。
1Bから8Bまでのモデルサイズの制御実験を通じて、OneFlowは最大50%のトレーニングFLOPを使用しながら、生成タスクと理解タスクの両方において自己回帰ベースラインを上回っていることを実証した。
OneFlowは、自動回帰と拡散ベースのアプローチの両方を超越し、並列生成、反復的洗練、自然な推論のような生成のための新機能をアンロックする。
関連論文リスト
- Contrastive Flow Matching [61.60002028726023]
コントラストフローマッチング(Contrastive Flow Matching)は、全ての条件フローに対して一意性を明示するフローマッチング対象の拡張である。
提案手法は,任意のサンプル対からの予測フロー間の相違を最大化するための対照的な目的を与える。
比較フローマッチングによるトレーニングモデル(1)は最大9倍のトレーニング速度,(2)は最大5倍のノイズ除去ステップ,(3)FIDを最大8.9以下に向上させる。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - Normalizing Flows are Capable Generative Models [48.31226028595099]
TarFlowはシンプルでスケーラブルなアーキテクチャで、高性能なNFモデルを実現する。
エンドツーエンドのトレーニングは簡単で、ピクセルを直接モデリングして生成することができる。
TarFlowは、画像の確率推定に新たな最先端結果を設定し、以前のベストメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-12-09T09:28:06Z) - OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows [21.677178476653385]
OmniFlowは、テキスト・ツー・イメージ、テキスト・ツー・オーディオ、オーディオ・ツー・イメージ・シンセサイザーなど、あらゆる世代のタスク用に設計された新しい生成モデルである。
テキスト・ツー・イメージやテキスト・ツー・オーディオ合成など、さまざまなタスクにおいて、これまでの任意のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-02T06:13:01Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。