論文の概要: FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows
- arxiv url: http://arxiv.org/abs/2512.15420v1
- Date: Wed, 17 Dec 2025 13:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.99767
- Title: FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows
- Title(参考訳): FlowBind: 双方向フローによる効率的なAny生成
- Authors: Yeonwoo Cha, Semin Kim, Jinhyeon Kwon, Seunghoon Hong,
- Abstract要約: FlowBindは、あらゆる世代の効率的なフレームワークです。
モダリティ固有の非可逆フローを各モダリティにブリッジして、クロスモーダル情報をキャプチャする共有潜在空間を学習する。
テキスト、画像、オーディオの実験では、FlowBindは6倍のパラメータを必要とせず、従来のメソッドよりも10倍高速にトレーニングできる。
- 参考スコア(独自算出の注目度): 17.924626622563924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Any-to-any generation seeks to translate between arbitrary subsets of modalities, enabling flexible cross-modal synthesis. Despite recent success, existing flow-based approaches are challenged by their inefficiency, as they require large-scale datasets often with restrictive pairing constraints, incur high computational cost from modeling joint distribution, and rely on complex multi-stage training. We propose FlowBind, an efficient framework for any-to-any generation. Our approach is distinguished by its simplicity: it learns a shared latent space capturing cross-modal information, with modality-specific invertible flows bridging this latent to each modality. Both components are optimized jointly under a single flow-matching objective, and at inference the invertible flows act as encoders and decoders for direct translation across modalities. By factorizing interactions through the shared latent, FlowBind naturally leverages arbitrary subsets of modalities for training, and achieves competitive generation quality while substantially reducing data requirements and computational cost. Experiments on text, image, and audio demonstrate that FlowBind attains comparable quality while requiring up to 6x fewer parameters and training 10x faster than prior methods. The project page with code is available at https://yeonwoo378.github.io/official_flowbind.
- Abstract(参考訳): 任意の生成はモダリティの任意の部分集合を変換し、フレキシブルなクロスモーダル合成を可能にする。
最近の成功にもかかわらず、既存のフローベースのアプローチは、しばしば制限的なペアリング制約を持つ大規模なデータセット、関節分布のモデリングによる高い計算コスト、複雑なマルチステージトレーニングに依存しているため、その非効率さによって、課題となっている。
任意の世代に効率的なフレームワークであるFlowBindを提案する。
我々のアプローチは単純さによって区別され、モダリティ固有の非可逆フローを各モダリティにブリッジすることで、クロスモーダル情報をキャプチャする共有潜在空間を学習する。
両方のコンポーネントは、単一のフローマッチングの目的の下で共同で最適化され、推論時に、非可逆フローは、モダリティ間の直接変換のためのエンコーダおよびデコーダとして機能する。
FlowBindは、共用潜水器を通じて相互作用を分解することにより、自然にトレーニングのための任意のモダリティのサブセットを活用し、データ要求と計算コストを大幅に削減しながら、競合生成品質を達成する。
テキスト、画像、オーディオの実験では、FlowBindは6倍のパラメータを必要とせず、従来のメソッドよりも10倍高速にトレーニングできる。
コード付きのプロジェクトページはhttps://yeonwoo378.github.io/official_flowbind.comで公開されている。
関連論文リスト
- Blockwise Flow Matching: Improving Flow Matching Models For Efficient High-Quality Generation [33.177998521195114]
フローマッチングモデルは、幅広い領域にわたる高忠実性データ生成の境界を押し上げている。
生成軌道を複数の時間セグメントに分割する新しいフレームワークであるBlockwise Flow Matching (BFM)を提案する。
BFMは2.1倍から4.9倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-10-24T05:41:23Z) - OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows [59.052955667723985]
可変長および同時混合モード生成が可能な最初の非自己回帰型マルチモーダルモデルであるOneFlowを提案する。
テキストと画像生成の間の厳格な因果順序を強制する自己回帰モデルとは異なり、OneFlowは個別のテキストトークンに対する挿入ベースのEdit Flowと、画像潜伏者のためのFlow Matchingを組み合わせる。
論文 参考訳(メタデータ) (2025-10-03T20:40:30Z) - Contrastive Flow Matching [61.60002028726023]
コントラストフローマッチング(Contrastive Flow Matching)は、全ての条件フローに対して一意性を明示するフローマッチング対象の拡張である。
提案手法は,任意のサンプル対からの予測フロー間の相違を最大化するための対照的な目的を与える。
比較フローマッチングによるトレーニングモデル(1)は最大9倍のトレーニング速度,(2)は最大5倍のノイズ除去ステップ,(3)FIDを最大8.9以下に向上させる。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - FlowUnits: Extending Dataflow for the Edge-to-Cloud Computing Continuum [41.94295877935867]
FlowUnitsは、処理オペレータを、さまざまなリージョンで透過的に複製可能な、結合的で独立した管理可能なコンポーネントに整理する。
当社のアプローチでは,エッジとクラウドリソースを統合データ処理パイプラインにシームレスに統合しながら,データフローの単純さを維持しています。
論文 参考訳(メタデータ) (2025-04-15T17:14:08Z) - Flow Matching for Collaborative Filtering [37.27712576496578]
FlowCFは、協調フィルタリングのためのフローベースのレコメンデーションシステムである。
高速な推論速度で、さまざまなデータセット間で最先端のレコメンデーション精度を達成する。
論文 参考訳(メタデータ) (2025-02-11T07:01:19Z) - Self-Corrected Flow Distillation for Consistent One-Step and Few-Step Text-to-Image Generation [3.8959351616076745]
フローマッチングは、生成モデルをトレーニングするための有望なフレームワークとして登場した。
本稿では, 整合性モデルと対向学習を統合した自己補正型流動蒸留法を提案する。
この研究は、数ステップと1ステップのサンプリングで一貫した生成品質を達成するための先駆者である。
論文 参考訳(メタデータ) (2024-12-22T07:48:49Z) - Consistency Flow Matching: Defining Straight Flows with Velocity Consistency [97.28511135503176]
本稿では,速度場の自己整合性を明示する新しいFM法であるConsistency Flow Matching(Consistency-FM)を紹介する。
予備実験により、一貫性FMは、一貫性モデルよりも4.4倍速く収束することにより、トレーニング効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-07-02T16:15:37Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。