論文の概要: Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2604.21952v1
- Date: Thu, 23 Apr 2026 05:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.21176
- Title: Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models
- Title(参考訳): フォーカスセッション:マルチモーダルファンデーションモデルの高速化のためのハードウェアとソフトウェア技術
- Authors: Muhammad Shafique, Abdul Basit, Muhammad Abdullah Hanif, Alberto Marchisio, Rachmad Vidya Wicaksana Putra, Minghao Shao,
- Abstract要約: マルチモーダル基礎モデル(MFM)の効率的な高速化手法を提案する。
ハードウェアとソフトウェアを組み合わせてトランスフォーマーブロックを設計し、計算とメモリの要求を減らす最適化パイプラインを設計する。
提案手法が医療用MFMおよびコード生成タスクに与える影響を実証し,エネルギー効率のよいMFMへの拡張を結論付けた。
- 参考スコア(独自算出の注目度): 6.2883850870849285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a multi-layered methodology for efficiently accelerating multimodal foundation models (MFMs). It combines hardware and software co-design of transformer blocks with an optimization pipeline that reduces computational and memory requirements. During model development, it employs performance enhancements through fine-tuning for domain-specific adaptation. Our methodology further incorporates hardware and software techniques for optimizing MFMs. Specifically, it employs MFM compression using hierarchy-aware mixed-precision quantization and structural pruning for transformer blocks and MLP channels. It also optimizes operations through speculative decoding, model cascading that routes queries through a small-to-large cascade and uses lightweight self-tests to determine when to escalate to larger models, as well as co-optimization of sequence length, visual resolution & stride, and graph-level operator fusion. To efficiently execute the model, the processing dataflow is optimized based on the underlying hardware architecture together with memory-efficient attention to meet on-chip bandwidth and latency budgets. To support this, a specialized hardware accelerator for the transformer workloads is employed, which can be developed through expert design or an LLM-aided design approach. We demonstrate the effectiveness of the proposed methodology on medical-MFMs and on code generation tasks, and conclude with extensions toward energy-efficient spiking-MFMs.
- Abstract(参考訳): 本研究は,MFM(Multimodal foundation model)を効率的に高速化する多層手法を提案する。
ハードウェアとソフトウェアを組み合わせてトランスフォーマーブロックを設計し、計算とメモリの要求を減らす最適化パイプラインを設計する。
モデル開発では、ドメイン固有の適応を微調整することでパフォーマンスを向上する。
MFMを最適化するためのハードウェアおよびソフトウェア技術をさらに取り入れた手法を提案する。
具体的には、階層対応の混合精度量子化と、変圧器ブロックとMLPチャネルの構造化プルーニングを用いたMFM圧縮を用いる。
また、投機的復号化による操作の最適化、小規模から大規模のカスケードを通じてクエリをルーティングするモデルカスケード、より大規模なモデルへのエスカレートのタイミングを決定するための軽量なセルフテスト、シーケンス長の同時最適化、ビジュアル解像度とストライド、グラフレベルの演算子融合なども行っている。
このモデルを効率的に実行するために、処理データフローは基盤となるハードウェアアーキテクチャに基づいて最適化され、オンチップの帯域幅とレイテンシの予算を満たすためにメモリ効率の低い注意が払われる。
これをサポートするために、トランスフォーマーワークロード用の特別なハードウェアアクセラレータが採用されており、エキスパート設計やLLM支援設計アプローチを通じて開発することができる。
提案手法が医療用MFMおよびコード生成タスクに与える影響を実証し,エネルギー効率のよいMFMへの拡張を結論付けた。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Developing a Multi-Modal Machine Learning Model For Predicting Performance of Automotive Hood Frames [0.0]
本稿では、同一データの異なるモーダル性から学習し、性能指標を予測するマルチモーダル機械学習アーキテクチャを開発する。
また、MMMLアーキテクチャを用いて、計算コストのかかるシミュレーションへの依存を減らすことにより、エンジニアリング設計プロセスの効率を高めることを目的とする。
論文 参考訳(メタデータ) (2025-08-28T02:15:54Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Efficient and Effective Adaptation of Multimodal Foundation Models in Sequential Recommendation [54.52742625903309]
IISANは対称MFMと同一のテキストと画像エンコーダに限られていた。
We developed IISAN-Versa, a simpletile plug-and-play architecture with symmetrical and asymmetrical MFMs。
IISAN-Versaは、大きなテキストエンコーダの適応に成功し、Microlensの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-05T10:53:25Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Rapid and Power-Aware Learned Optimization for Modular Receive Beamforming [27.09017677987757]
マルチインプット・マルチアウトプット(MIMO)システムは無線通信技術において重要な役割を果たす。
モジュールハイブリッドシステムにおけるビームフォーミングのための電力指向最適化アルゴリズムを提案する。
低分解能位相シフトによる計算の高速化を通じて、学習者によって効率の良いビームフォーミングがいかに促進されるかを示す。
論文 参考訳(メタデータ) (2024-08-01T10:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。