論文の概要: Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices
- arxiv url: http://arxiv.org/abs/2510.05109v2
- Date: Mon, 27 Oct 2025 14:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.84065
- Title: Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices
- Title(参考訳): Tiny but Mighty: 電池駆動小型デバイス上での効率的なマルチモーダル推論のためのソフトウェア・ハードウェア共同設計手法
- Authors: Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee,
- Abstract要約: 大規模マルチモーダルモデル (LMM) は、視覚とオーディオエンコーダ、プロジェクタ、および大きな言語モデルからなる、本質的にモジュラーである。
しかし、それらはほとんど常にモノリシックに実行され、不均一な加速器を弱めている。
大規模マルチモーダルモデル(LMM)のためのハードウェア-ソフトウェア共設計推論フレームワークを提案する。
このフレームワークは、大規模なモデルをモジュラーコンポーネントに分割し、最も適切な計算ユニットで実行する予定である。
- 参考スコア(独自算出の注目度): 12.40080721078945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Multimodal Models (LMMs) are inherently modular, consisting of vision and audio encoders, projectors, and large language models. Yet, they are almost always executed monolithically, which underutilizes the heterogeneous accelerators (NPUs, GPUs, DSPs) in modern SoCs and leads to high end-to-end latency. In this paper, we present NANOMIND, a hardware--software co-design inference framework for Large Multimodal Models (LMMs) that breaks large models into modular ``bricks'' (vision, language, audio, etc.) and maps each to its ideal accelerator. The key insight is that large models can be broken into modular components and scheduled to run on the most appropriate compute units. It performs module-level dynamic offloading across accelerators on unified-memory SoCs. By combining customized hardware design, system-level scheduling, and optimized low-bit computation kernels, we demonstrate our framework with a compact, battery-powered device capable of running LMMs entirely on device. This prototype functions as a self-contained intelligent assistant that requires no network connectivity, while achieving higher throughput and superior power efficiency under strict resource constraints. The design further bypasses CPU bottlenecks and reduces redundant memory usage through token-aware buffer management and module-level coordination. Our system outperforms existing implementations in resource efficiency, cutting energy consumption by 42.3\% and GPU memory usage by 11.2\%. This enables a battery-powered device to run LLaVA-OneVision with a camera for nearly half a day and LLaMA-3-8B for voice interactions up to almost 20.8 hours.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は、視覚とオーディオエンコーダ、プロジェクタ、および大きな言語モデルからなる、本質的にモジュラーである。
しかし、それらはほとんど常にモノリシックに実行され、現代のSoCにおける異種アクセラレータ(NPU、GPU、DSP)を弱め、エンドツーエンドのレイテンシをもたらす。
本稿では,大規模マルチモーダルモデル(LMM)のためのハードウェア-ソフトウェア共設計推論フレームワークであるNANOMINDについて述べる。
重要な洞察は、大きなモデルをモジュール化されたコンポーネントに分割し、最も適切な計算ユニットで実行するようにスケジュールできるということです。
モジュールレベルの動的オフロードを、統一メモリのSoC上で実行します。
ハードウェア設計、システムレベルのスケジューリング、最適化された低ビット計算カーネルを組み合わせることで、LMMを完全にデバイス上で実行可能なコンパクトでバッテリ駆動のデバイスで、我々のフレームワークを実演する。
このプロトタイプは、ネットワーク接続を必要としない自己完結したインテリジェントアシスタントとして機能し、厳しいリソース制約下で高いスループットと優れた電力効率を達成する。
この設計はCPUボトルネックをさらに回避し、トークン対応バッファ管理とモジュールレベルの調整を通じて冗長なメモリ使用量を削減している。
本システムは,資源効率,省エネ率42.3\%,GPUメモリ使用率11.2\%の既存の実装よりも優れています。
これにより、LLaVA-OneVisionをカメラで半日近く動作させ、LLaMA-3-8Bで音声インタラクションを最大20.8時間実行することができる。
関連論文リスト
- MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文 参考訳(メタデータ) (2025-04-12T21:26:56Z) - MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism [26.923312725688735]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールし、性能を向上し、計算の複雑さを減らし、大きな可能性を誇示している。
大規模MOEモデルを提供するための効率よく費用効率の良いシステムであるMegaScale-Inferを提案する。
論文 参考訳(メタデータ) (2025-04-03T04:20:44Z) - Neuromorphic Principles for Efficient Large Language Models on Intel Loihi 2 [5.213433310722838]
大きな言語モデル(LLM)は優れたパフォーマンスを提供するが、大量のエネルギーを必要とする。
We present a MatMul-free LLM architecture with Intel's neuromorphic processor, Loihi 2。
当社のアプローチでは,ローヒ2の低精度,イベント駆動型計算,ステートフル処理のサポートを活用している。
論文 参考訳(メタデータ) (2025-02-12T02:40:44Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Rapid and Power-Aware Learned Optimization for Modular Receive Beamforming [27.09017677987757]
マルチインプット・マルチアウトプット(MIMO)システムは無線通信技術において重要な役割を果たす。
モジュールハイブリッドシステムにおけるビームフォーミングのための電力指向最適化アルゴリズムを提案する。
低分解能位相シフトによる計算の高速化を通じて、学習者によって効率の良いビームフォーミングがいかに促進されるかを示す。
論文 参考訳(メタデータ) (2024-08-01T10:19:25Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。