論文の概要: LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer
- arxiv url: http://arxiv.org/abs/2506.06952v1
- Date: Sun, 08 Jun 2025 00:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.581481
- Title: LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer
- Title(参考訳): LaTtE-Flow:LaTtE-Expert Flow-based Transformer
- Authors: Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang,
- Abstract要約: マルチモーダルモデル内で画像の理解と生成を統一する新しい,効率的なアーキテクチャであるLaTtE-Flowを提案する。
LaTtE-Flowは、強力なマルチモーダル理解能力を継承するために、強力な事前訓練されたビジョンランゲージモデル(VLM)の上に構築されている。
実験により、LaTtE-Flowは、競合画像生成品質を約6倍高速な推論速度で達成しつつ、マルチモーダル理解タスクで高いパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 36.51630912419451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal foundation models unifying image understanding and generation have opened exciting avenues for tackling a wide range of vision-language tasks within a single framework. Despite progress, existing unified models typically require extensive pretraining and struggle to achieve the same level of performance compared to models dedicated to each task. Additionally, many of these models suffer from slow image generation speeds, limiting their practical deployment in real-time or resource-constrained settings. In this work, we propose Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), a novel and efficient architecture that unifies image understanding and generation within a single multimodal model. LaTtE-Flow builds upon powerful pretrained Vision-Language Models (VLMs) to inherit strong multimodal understanding capabilities, and extends them with a novel Layerwise Timestep Experts flow-based architecture for efficient image generation. LaTtE-Flow distributes the flow-matching process across specialized groups of Transformer layers, each responsible for a distinct subset of timesteps. This design significantly improves sampling efficiency by activating only a small subset of layers at each sampling timestep. To further enhance performance, we propose a Timestep-Conditioned Residual Attention mechanism for efficient information reuse across layers. Experiments demonstrate that LaTtE-Flow achieves strong performance on multimodal understanding tasks, while achieving competitive image generation quality with around 6x faster inference speed compared to recent unified multimodal models.
- Abstract(参考訳): 画像理解と生成を統一するマルチモーダル基盤モデルの最近の進歩は、単一のフレームワーク内で幅広い視覚言語タスクに取り組むためのエキサイティングな道を開いた。
進歩にもかかわらず、既存の統一モデルは、通常、広範囲の事前訓練を必要とし、各タスク専用のモデルと比較して、同じレベルのパフォーマンスを達成するのに苦労する。
さらに、これらのモデルの多くは画像生成速度の遅さに悩まされており、リアルタイムやリソース制約のある設定での実際のデプロイを制限している。
本研究では,LaTtE-Flow(LaTtE-Flow)を用いた階層型タイムステップ・フロー・トランスフォーマ(LaTtE-Flow)を提案する。
LaTtE-Flowは、強力なマルチモーダル理解能力を継承するために、強力な事前訓練されたビジョンランゲージモデル(VLM)を基盤として構築され、効率的な画像生成のための新しいLaTtE Timestep Expertsフローベースアーキテクチャでそれらを拡張している。
LaTtE-Flowは、フローマッチングプロセスをトランスフォーマー層の特殊なグループに分散し、それぞれが別々のタイムステップのサブセットを担っている。
この設計はサンプリングタイムステップ毎に少数の層のみを活性化することによりサンプリング効率を著しく向上させる。
さらに性能向上を図るため,レイヤ間の情報再利用を効率化するTimestep-Conditioned Residual Attention機構を提案する。
実験により、LaTtE-Flowは、最近の統合マルチモーダルモデルと比較して、競合画像生成品質を約6倍高速な推論速度で達成しつつ、マルチモーダル理解タスクにおいて高い性能を達成することが示された。
関連論文リスト
- Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Deeply Supervised Flow-Based Generative Models [16.953166973699577]
DeepFlowは、層間通信によるベロシティ表現を強化する新しいフレームワークである。
DeepFlowは内部のベロシティアライメントを通じて改善されたディープインスペクションによって駆動され、ImageNet上で同等のパフォーマンスで8倍高速に収束する。
DeepFlowはまた、MSCOCOとゼロショットGenEvalの評価によって証明されたように、テキストから画像生成タスクのベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-03-18T17:58:08Z) - Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities [8.81828807024982]
マルチタスク・アップサイクリング(Multi-Task Upcycling, MTU)は、トレーニング済みのテキスト・ツー・イメージ拡散モデルの能力を拡張し、様々な画像・画像生成タスクをサポートするレシピである。
MTUは、マルチタスクとデバイス上の互換性をシームレスにブレンドする最初のマルチタスク拡散モデリング手法である。
MTUの性能は,複数のタスクにまたがる単一タスクの微調整拡散モデルと同等であることを示す。
論文 参考訳(メタデータ) (2025-03-14T22:19:20Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。