論文の概要: Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models
- arxiv url: http://arxiv.org/abs/2603.15271v1
- Date: Mon, 16 Mar 2026 13:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.387396
- Title: Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models
- Title(参考訳): Flash-Unified: ネイティブ統一モデルのためのトレーニングフリーでタスク対応のアクセラレーションフレームワーク
- Authors: Junlong Ke, Zichen Wen, Boxue Yang, Yantai Yang, Xuyang Liu, Chenfei Liao, Zhaorun Chen, Shaobo Wang, Linfeng Zhang,
- Abstract要約: 生成能力と理解能力を統合したネイティブ統合マルチモーダルモデルは、かなりの計算オーバーヘッドに直面している。
本稿では,統一モデルの最初の体系的解析を行い,パラメータの特殊化を明らかにした。
トレーニング不要でタスク対応のアクセラレーションフレームワークであるFlashUを導入し、各タスクの要求に合わせて最適化する。
- 参考スコア(独自算出の注目度): 19.51785202887522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Native unified multimodal models, which integrate both generative and understanding capabilities, face substantial computational overhead that hinders their real-world deployment. Existing acceleration techniques typically employ a static, monolithic strategy, ignoring the fundamental divergence in computational profiles between iterative generation tasks (e.g., image generation) and single-pass understanding tasks (e.g., VQA). In this work, we present the first systematic analysis of unified models, revealing pronounced parameter specialization, where distinct neuron sets are critical for each task. This implies that, at the parameter level, unified models have implicitly internalized separate inference pathways for generation and understanding within a single architecture. Based on these insights, we introduce a training-free and task-aware acceleration framework, FlashU, that tailors optimization to each task's demands. Across both tasks, we introduce Task-Specific Network Pruning and Dynamic Layer Skipping, aiming to eliminate inter-layer and task-specific redundancy. For visual generation, we implement a time-varying control signal for the guidance scale and a temporal approximation for the diffusion head via Diffusion Head Cache. For multimodal understanding, building upon the pruned model, we introduce Dynamic Token Pruning via a V-Norm Proxy to exploit the spatial redundancy of visual inputs. Extensive experiments on Show-o2 demonstrate that FlashU achieves 1.78$\times$ to 2.01$\times$ inference acceleration across both understanding and generation tasks while maintaining SOTA performance, outperforming competing unified models and validating our task-aware acceleration paradigm. Our code is publicly available at https://github.com/Rirayh/FlashU.
- Abstract(参考訳): 生成機能と理解機能を統合したネイティブ統合マルチモーダルモデルは、現実のデプロイメントを妨げる計算オーバーヘッドに直面する。
既存の加速技術は静的なモノリシックな戦略を採用しており、反復生成タスク(例えば、画像生成)とシングルパス理解タスク(例えば、VQA)の計算プロファイルの基本的な相違を無視している。
本研究では,各タスクに異なるニューロンセットが重要となるパラメータの特殊化を明らかにするため,統一モデルの最初の体系的解析を行った。
これは、パラメータレベルでは、統一モデルは単一のアーキテクチャ内で生成および理解するために暗黙的に個別の推論経路を持つことを意味する。
これらの知見に基づいて、各タスクの要求に合わせて最適化を行う、トレーニング不要でタスク対応のアクセラレーションフレームワークであるFlashUを紹介します。
両タスクにまたがって、階層間およびタスク固有の冗長性を排除することを目的として、Task-Specific Network PruningとDynamic Layer Skippingを導入する。
視覚生成のために、誘導尺度の時間変化制御信号と拡散ヘッドキャッシュによる拡散ヘッドの時間近似を実装した。
マルチモーダル理解のためには,視覚入力の空間的冗長性を活用するために,V-Norm Proxyを用いた動的トーケンプルーニングを導入する。
Show-o2での大規模な実験により、FlashUは理解タスクと生成タスクの両方にわたって1.78$\times$から2.01$\times$推論アクセラレーションを実現し、SOTA性能を維持し、競合する統一モデルを上回っ、タスク認識アクセラレーションパラダイムを検証した。
私たちのコードはhttps://github.com/Rirayh/FlashU.comで公開されています。
関連論文リスト
- E2PL: Effective and Efficient Prompt Learning for Incomplete Multi-view Multi-Label Class Incremental Learning [23.648354515768734]
我々は,IMvMLCILの効率的かつ効率的なプロンプト学習フレームワークであるtextsfE2PLを紹介する。
また,textsfE2PLは, 有効性と効率性の両方において, 常に最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-01-23T03:30:47Z) - UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation [98.93314262366681]
胸部X線理解・生成のための次世代統合医療基盤モデルUniXについて述べる。
UniXは2つのタスクを、理解のための自己回帰分岐と高忠実度生成のための拡散分岐に分離する。
2つの代表的なベンチマークでは、Unixは46.1%の性能向上と24.2%の世代品質向上を実現している。
論文 参考訳(メタデータ) (2026-01-16T18:59:58Z) - Architecture Decoupling Is Not All You Need For Unified Multimodal Model [64.19284951218098]
本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
論文 参考訳(メタデータ) (2025-11-27T17:55:25Z) - One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning [32.13266149565313]
UniZeroのようなマルチタスクの世界モデルは、シングルタスク設定で優れている。
勾配の矛盾やモデル塑性の喪失はサンプルの効率を阻害することが多い。
本研究では,これらの課題を2つの相補的な視点 – 単一学習イテレーションと全体学習プロセス – から解決する。
論文 参考訳(メタデータ) (2025-09-09T17:27:53Z) - UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation [39.921363034430875]
統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。
タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
論文 参考訳(メタデータ) (2025-06-20T17:52:31Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。