論文の概要: MMEdge: Accelerating On-device Multimodal Inference via Pipelined Sensing and Encoding
- arxiv url: http://arxiv.org/abs/2510.25327v1
- Date: Wed, 29 Oct 2025 09:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.381204
- Title: MMEdge: Accelerating On-device Multimodal Inference via Pipelined Sensing and Encoding
- Title(参考訳): MMEdge:パイプラインセンシングとエンコーディングによるデバイス上のマルチモーダル推論の高速化
- Authors: Runxi Huang, Mingxuan Yu, Mingyu Tsoi, Xiaomin Ouyang,
- Abstract要約: 本稿では,パイプラインセンシングと符号化に基づく新しいオンデバイスマルチモーダル推論フレームワークMMEdgeを提案する。
MMEdgeは完全なセンサー入力を待つ代わりに、推論プロセス全体を微細なセンシングと符号化ユニットのシーケンスに分解する。
MMEdgeは、さまざまなシステムとデータダイナミクスにわたる高いタスク精度を維持しながら、エンドツーエンドのレイテンシを大幅に削減する。
- 参考スコア(独自算出の注目度): 1.6572113577265137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time multimodal inference on resource-constrained edge devices is essential for applications such as autonomous driving, human-computer interaction, and mobile health. However, prior work often overlooks the tight coupling between sensing dynamics and model execution, as well as the complex inter-modality dependencies. In this paper, we propose MMEdge, an new on-device multi-modal inference framework based on pipelined sensing and encoding. Instead of waiting for complete sensor inputs, MMEdge decomposes the entire inference process into a sequence of fine-grained sensing and encoding units, allowing computation to proceed incrementally as data arrive. MMEdge also introduces a lightweight but effective temporal aggregation module that captures rich temporal dynamics across different pipelined units to maintain accuracy performance. Such pipelined design also opens up opportunities for fine-grained cross-modal optimization and early decision-making during inference. To further enhance system performance under resource variability and input data complexity, MMEdge incorporates an adaptive multimodal configuration optimizer that dynamically selects optimal sensing and model configurations for each modality under latency constraints, and a cross-modal speculative skipping mechanism that bypasses future units of slower modalities when early predictions reach sufficient confidence. We evaluate MMEdge using two public multimodal datasets and deploy it on a real-world unmanned aerial vehicle (UAV)-based multimodal testbed. The results show that MMEdge significantly reduces end-to-end latency while maintaining high task accuracy across various system and data dynamics.
- Abstract(参考訳): リソース制約のあるエッジデバイス上でのリアルタイムマルチモーダル推論は、自律運転、人間とコンピュータのインタラクション、モバイルの健康といったアプリケーションに不可欠である。
しかしながら、事前の作業はしばしば、センシングダイナミクスとモデル実行の密結合と、複雑なモダリティ間の依存関係を見落としている。
本稿では,パイプラインセンシングと符号化に基づく新しいオンデバイスマルチモーダル推論フレームワークMMEdgeを提案する。
MMEdgeは完全なセンサー入力を待つ代わりに、推論プロセス全体を微細なセンシングと符号化ユニットのシーケンスに分解し、データが到着するにつれて計算を段階的に進める。
MMEdgeはまた、軽量だが効果的な時間的アグリゲーションモジュールも導入している。
このようなパイプライン設計は、推論中に細粒度のクロスモーダル最適化と早期意思決定の機会を開放する。
MMEdgeは、リソースの変動性と入力データの複雑さによるシステム性能をさらに向上するため、遅延制約下で各モードに対する最適センシングとモデル構成を動的に選択する適応型マルチモーダル設定オプティマイザと、早期予測が十分な信頼度に達すると、より遅いモーダルの将来のユニットをバイパスするクロスモーダル投機スキップ機構を組み込んだ。
2つの公開マルチモーダルデータセットを用いてMMEdgeを評価し、実世界の無人航空機(UAV)ベースのマルチモーダルテストベッドにデプロイする。
その結果、MMEdgeは様々なシステムやデータ・ダイナミックスで高いタスク精度を維持しながら、エンドツーエンドのレイテンシを著しく低減することがわかった。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - A Lightweight Group Multiscale Bidirectional Interactive Network for Real-Time Steel Surface Defect Detection [15.140649886958945]
Group Multiscale Bidirectional Interactive (GMBI)モジュールは、マルチスケールの特徴抽出と相互作用を強化する。
SD-Saliency-900とNRSD-MNデータセットの実験は、GMBINetがGPUで1048 FPS、CPUで512解像度で16.53 FPSのリアルタイム速度で競合精度を提供することを示した。
論文 参考訳(メタデータ) (2025-08-22T13:58:35Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Towards A Flexible Accuracy-Oriented Deep Learning Module Inference Latency Prediction Framework for Adaptive Optimization Algorithms [0.49157446832511503]
本稿では,ディープラーニングモジュール推論遅延予測フレームワークを提案する。
DNNモジュールごとに複数のRMをトレーニングするために、カスタマイズ可能な入力パラメータのセットをホストする。
トレーニングされたRMのセットを自動的に選択し、全体的な予測精度が最高になる。
論文 参考訳(メタデータ) (2023-12-11T15:15:48Z) - Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
多目的ベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。
本手法は,DNNの予測精度,メモリ要求,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z) - Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-03-31T21:35:13Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。