論文の概要: Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis
- arxiv url: http://arxiv.org/abs/2603.06507v1
- Date: Fri, 06 Mar 2026 17:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.307323
- Title: Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis
- Title(参考訳): スケーラブルなマルチモーダル合成のための自己最適化フローマッチング
- Authors: Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach,
- Abstract要約: 強い意味表現は拡散と流れモデルの収束と生成の質を向上させる。
既存のアプローチは、主に外部モデルに依存しており、個別のトレーニングが必要であり、不整合した目標を運用し、予期しないスケーリングの振る舞いを示す。
本稿では,自己制御型フローマッチングパラダイムであるSelf-Flowを紹介する。
- 参考スコア(独自算出の注目度): 34.5994686982342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strong semantic representations improve the convergence and generation quality of diffusion and flow models. Existing approaches largely rely on external models, which require separate training, operate on misaligned objectives, and exhibit unexpected scaling behavior. We argue that this dependence arises from the model's training objective, which poses a denoising task with little incentive to learn semantic representations. We introduce Self-Flow: a self-supervised flow matching paradigm that integrates representation learning within the generative framework. Our key mechanism, Dual-Timestep Scheduling, applies heterogeneous noise levels across tokens, creating an information asymmetry that forces the model to infer missing information from corrupted inputs. This drives learning strong representations alongside generative capabilities without external supervision. Our method generalizes across modalities and enables multi-modal training while following expected scaling laws, achieving superior image, video, and audio generation.
- Abstract(参考訳): 強い意味表現は拡散と流れモデルの収束と生成の質を向上させる。
既存のアプローチは、主に外部モデルに依存しており、個別のトレーニングが必要であり、不整合した目標を運用し、予期しないスケーリングの振る舞いを示す。
この依存はモデルの学習目標から生じており、意味表現を学習するインセンティブがほとんどない。
本稿では,自己制御型フローマッチングパラダイムであるSelf-Flowを紹介する。
我々のキーとなるメカニズムであるDual-Timestep Schedulingはトークン間で異質なノイズレベルを適用し、崩壊した入力から欠落した情報を推測するようモデルに強制する情報非対称性を生成します。
これにより、外部の監督なしに、生成能力とともに強力な表現を学ぶことができる。
提案手法はモダリティを一般化し,期待されるスケーリング法則に従ってマルチモーダルトレーニングを可能にし,優れた画像,ビデオ,音声生成を実現する。
関連論文リスト
- Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - LayerSync: Self-aligning Intermediate Layers [66.14119485147891]
拡散モデルの生成品質とトレーニング効率を改善するためのドメインに依存しないアプローチであるLayerSyncを提案する。
当社のアプローチであるLayerSyncは,拡散モデルトレーニングのオーバーヘッドを伴わない,自己充足的でプラグアンドプレイの正規化ツールである。
本手法を広範に評価し,音声,ビデオ,モーション生成などの他の領域に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-10-14T14:39:14Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。
提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。
このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-06-10T06:29:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。