Fugu-MT 論文翻訳(概要): Exploring the Boundaries of On-Device Inference: When Tiny Falls Short, Go Hierarchical

論文の概要: Exploring the Boundaries of On-Device Inference: When Tiny Falls Short, Go Hierarchical

arxiv url: http://arxiv.org/abs/2407.11061v1
Date: Wed, 10 Jul 2024 16:05:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 20:10:21.772373
Title: Exploring the Boundaries of On-Device Inference: When Tiny Falls Short, Go Hierarchical
Title（参考訳）: デバイス上の推論の境界を探る:Tinyが短くなったら階層的になる
Authors: Adarsh Prasad Behera, Paulius Daubaris, Iñaki Bravo, José Gallego, Roberto Morabito, Joerg Widmer, Jaya Prakash Varma Champati,
Abstract要約: Hierarchical Inference (HI)システムは、選択したサンプルをエッジサーバやクラウドにオフロードして、リモートML推論を行う。本稿では, HIの精度, レイテンシ, エネルギーの測定値に基づいて, デバイス上での推論性能を系統的に比較する。
参考スコア（独自算出の注目度）: 4.211747495359569
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: On-device inference holds great potential for increased energy efficiency, responsiveness, and privacy in edge ML systems. However, due to less capable ML models that can be embedded in resource-limited devices, use cases are limited to simple inference tasks such as visual keyword spotting, gesture recognition, and predictive analytics. In this context, the Hierarchical Inference (HI) system has emerged as a promising solution that augments the capabilities of the local ML by offloading selected samples to an edge server or cloud for remote ML inference. Existing works demonstrate through simulation that HI improves accuracy. However, they do not account for the latency and energy consumption on the device, nor do they consider three key heterogeneous dimensions that characterize ML systems: hardware, network connectivity, and models. In contrast, this paper systematically compares the performance of HI with on-device inference based on measurements of accuracy, latency, and energy for running embedded ML models on five devices with different capabilities and three image classification datasets. For a given accuracy requirement, the HI systems we designed achieved up to 73% lower latency and up to 77% lower device energy consumption than an on-device inference system. The key to building an efficient HI system is the availability of small-size, reasonably accurate on-device models whose outputs can be effectively differentiated for samples that require remote inference. Despite the performance gains, HI requires on-device inference for all samples, which adds a fixed overhead to its latency and energy consumption. Therefore, we design a hybrid system, Early Exit with HI (EE-HI), and demonstrate that compared to HI, EE-HI reduces the latency by up to 59.7% and lowers the device's energy consumption by up to 60.4%.
Abstract（参考訳）: デバイス上の推論は、エッジMLシステムにおけるエネルギー効率、応答性、プライバシを高める大きな可能性を秘めている。しかし、リソース制限されたデバイスに組み込むことができる能力の低いMLモデルのため、ユースケースはビジュアルキーワードスポッティング、ジェスチャー認識、予測分析などの単純な推論タスクに限定される。このような状況下では、階層推論(Hierarchical Inference, HI)システムは、選択したサンプルをエッジサーバやクラウドにオフロードすることで、ローカルMLの能力を増強する有望なソリューションとして登場した。既存の研究は、HIが精度を向上させることをシミュレーションによって示している。しかし、デバイス上のレイテンシとエネルギー消費を考慮せず、ハードウェア、ネットワーク接続、モデルといったMLシステムを特徴付ける3つの重要な異種次元も考慮していない。対照的に,本研究では,異なる機能と3つの画像分類データセットを持つ5つのデバイス上での組み込みMLモデルの精度,レイテンシ,エネルギの測定値に基づいて,HIの性能とオンデバイス推論を系統的に比較する。所定の精度要件を満たすために、HIシステムは、デバイス上の推論システムよりも、最大で73%のレイテンシ、最大で77%のデバイスエネルギー消費を実現した。効率的なHIシステムを構築するための鍵は、リモート推論を必要とするサンプルに対して出力を効果的に区別できる小型で合理的なオンデバイスモデルが利用可能であることである。パフォーマンスの向上にもかかわらず、HIはすべてのサンプルに対してデバイス上の推論を必要とするため、レイテンシとエネルギー消費に一定のオーバーヘッドが生じる。そこで我々は、HIを用いたEarly Exit with HI(EE-HI)を設計し、HIと比較して、EE-HIはレイテンシを59.7%削減し、デバイスの消費電力を60.4%削減することを示した。

関連論文リスト

Benchmarking Energy and Latency in TinyML: A Novel Method for Resource-Constrained AI [0.0]
この研究は、エネルギーと遅延の測定を統合する代替のベンチマーク手法を導入する。設定を評価するために、ニューラルネットワークを実行するためのNPUを含むSTM32N6 MCUをテストした。その結果,コア電圧とクロック周波数の低減により,前処理と後処理の効率が向上することが示唆された。
論文参考訳（メタデータ） (2025-05-21T15:12:14Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文参考訳（メタデータ） (2025-05-14T08:18:55Z)
Hybrid Knowledge Transfer through Attention and Logit Distillation for On-Device Vision Systems in Agricultural IoT [0.0]
この研究は、精密農業におけるリアルタイムでエネルギー効率の高い作物モニタリングを推進している。これは、エッジデバイス上でViTレベルの診断精度を実現する方法を示している。
論文参考訳（メタデータ） (2025-04-21T06:56:41Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [53.539020807256904]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。トークン化方式は、チャネルごとのパッチで脳波信号を表現します。本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文参考訳（メタデータ） (2025-01-18T21:44:38Z)
Enhancing Predictive Maintenance in Mining Mobile Machinery through a TinyML-enabled Hierarchical Inference Network [0.0]
本稿では,予測保守のためのエッジセンサネットワーク(ESN-PdM)を紹介する。 ESN-PdMはエッジデバイス、ゲートウェイ、クラウドサービスにまたがる階層的推論フレームワークで、リアルタイムな状態監視を行う。システムは、正確性、レイテンシ、バッテリー寿命のトレードオフに基づいて、デバイス、オンゲートウェイ、あるいはクラウド上の推論位置を動的に調整する。
論文参考訳（メタデータ） (2024-11-11T17:48:04Z)
DSORT-MCU: Detecting Small Objects in Real-Time on Microcontroller Units [1.4447019135112429]
本稿では,YOLOモデルや一般的なFOMOネットワークを含む,軽量でエネルギー効率の高い物体検出ネットワークに対する適応型タイリング手法を提案する。提案したタイリングにより,大規模検出モデルと比較して精度が損なわれることなく,低消費電力のMCU上で物体検出が可能となる。
論文参考訳（メタデータ） (2024-10-22T07:37:47Z)
Efficient Federated Intrusion Detection in 5G ecosystem using optimized BERT-based model [0.7100520098029439]
5Gは高度なサービスを提供し、IoT(Internet of Things)内のインテリジェントトランスポート、コネクテッドヘルスケア、スマートシティなどのアプリケーションをサポートする。これらの進歩は、ますます高度なサイバー攻撃を伴う、重大なセキュリティ上の課題をもたらす。本稿では,連合学習と大規模言語モデル(LLM)を用いた頑健な侵入検知システム(IDS)を提案する。
論文参考訳（メタデータ） (2024-09-28T15:56:28Z)
Comparison of edge computing methods in Internet of Things architectures for efficient estimation of indoor environmental parameters with Machine Learning [0.0]
室内環境品質(IEQ)パラメータを推定する軽量機械学習モデルを提案する。その実装は、集中化された分散並列IoTアーキテクチャに基づいており、無線で接続されている。 MLモデルのトレーニングとテストは、小さな温度と照度データセットに焦点を当てた実験によって達成される。
論文参考訳（メタデータ） (2024-02-07T21:15:18Z)
EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文参考訳（メタデータ） (2023-02-15T06:05:14Z)
A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。 YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。 YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文参考訳（メタデータ） (2022-04-05T16:29:49Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)
Energy-Efficient Model Compression and Splitting for Collaborative Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文参考訳（メタデータ） (2021-06-02T07:36:27Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Moving Object Classification with a Sub-6 GHz Massive MIMO Array using Real Data [64.48836187884325]
無線信号を用いた屋内環境における各種活動の分類は,様々な応用の新たな技術である。本論文では,屋内環境におけるマルチインプット・マルチアウトプット(MIMO)システムから,機械学習を用いて移動物体の分類を解析する。
論文参考訳（メタデータ） (2021-02-09T15:48:35Z)
Gait Recovery System for Parkinson's Disease using Machine Learning on Embedded Platforms [0.052498055901649014]
パーキンソン病(PD)の診断における歩行凍結(FoG)は共通の歩行障害である著者らは加速度センサ信号から機械学習サブシステムを用いてFOGイベントを検出するユビキタス組み込みシステムを提案する。
論文参考訳（メタデータ） (2020-04-13T08:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。