論文の概要: Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2509.18824v1
- Date: Tue, 23 Sep 2025 09:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.789773
- Title: Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation
- Title(参考訳): Hyper-Bagel: マルチモーダル理解と生成のための統一的な加速フレームワーク
- Authors: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao,
- Abstract要約: Hyper-Bagelはマルチモーダル理解と生成の両方を同時に高速化するように設計されている。
生成タスクの場合、6-NFEモデルは16.67倍のテキスト画像生成速度、22倍の画像編集速度が得られる。
- 参考スコア(独自算出の注目度): 19.010105652612616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models have recently attracted considerable attention for their remarkable abilities in jointly understanding and generating diverse content. However, as contexts integrate increasingly numerous interleaved multimodal tokens, the iterative processes of diffusion denoising and autoregressive decoding impose significant computational overhead. To address this, we propose Hyper-Bagel, a unified acceleration framework designed to simultaneously speed up both multimodal understanding and generation tasks. Our approach uses a divide-and-conquer strategy, employing speculative decoding for next-token prediction and a multi-stage distillation process for diffusion denoising. The framework delivers substantial performance gains, achieving over a 2x speedup in multimodal understanding. For generative tasks, our resulting lossless 6-NFE model yields a 16.67x speedup in text-to-image generation and a 22x speedup in image editing, all while preserving the high-quality output of the original model. We further develop a highly efficient 1-NFE model that enables near real-time interactive editing and generation. By combining advanced adversarial distillation with human feedback learning, this model achieves ultimate cost-effectiveness and responsiveness, making complex multimodal interactions seamless and instantaneous.
- Abstract(参考訳): 統一マルチモーダルモデルは近年,多種多様なコンテンツを共同で理解・生成する上で,その顕著な能力に注目が集まっている。
しかし、コンテキストがますます多くのインターリーブされたマルチモーダルトークンを統合するにつれて、拡散復号化と自己回帰復号化の反復過程は計算オーバーヘッドを著しく高める。
そこで我々は,マルチモーダル理解と生成タスクを同時に高速化する統合加速度フレームワークHyper-Bagelを提案する。
提案手法では,次点予測に投機的復号法,拡散復号化に多段蒸留法を用いる。
このフレームワークはパフォーマンスを大幅に向上させ、マルチモーダル理解において2倍のスピードアップを達成する。
生成タスクにおいて、損失のない6-NFEモデルは、原モデルの高品質な出力を保ちながら、テキスト・画像生成の16.67倍の高速化と画像編集の22倍の高速化を実現している。
さらに,リアルタイムに近いインタラクティブな編集・生成が可能な高効率な1-NFEモデルを開発した。
先進的対人蒸留と人間のフィードバック学習を組み合わせることで、このモデルは究極のコスト効率と応答性を達成し、複雑なマルチモーダル相互作用をシームレスかつ瞬時に実現する。
関連論文リスト
- Lavida-O: Elastic Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
Lavida-Oは画像の理解と生成が可能な統合MDMである。
オブジェクトの接地、画像編集、高解像度(1024px)画像合成など、多くの新機能が提供されている。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer [36.51630912419451]
マルチモーダルモデル内で画像の理解と生成を統一する新しい,効率的なアーキテクチャであるLaTtE-Flowを提案する。
LaTtE-Flowは、強力なマルチモーダル理解能力を継承するために、強力な事前訓練されたビジョンランゲージモデル(VLM)の上に構築されている。
実験により、LaTtE-Flowは、競合画像生成品質を約6倍高速な推論速度で達成しつつ、マルチモーダル理解タスクで高いパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-06-08T00:15:32Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [36.99310116405025]
長期合成は、高品質、ポートレート、時間的一貫性、計算効率を同時に達成する上で、永続的な課題に直面している。
本稿では,マルチモーダルガイダンスと新しいメモリバンク機構を組み込んだトランスフォーマー拡散フレームワークであるLetsTalkを紹介する。
実験により、LetsTalkは時間的コヒーレントでリアルな会話ビデオを実現し、多様性と活力を高めつつ、従来の手法よりも8つのパラメータで顕著な効率を維持していることが示された。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。