論文の概要: On the Sustainability of AI Inferences in the Edge
- arxiv url: http://arxiv.org/abs/2507.23093v1
- Date: Wed, 30 Jul 2025 20:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.725459
- Title: On the Sustainability of AI Inferences in the Edge
- Title(参考訳): エッジにおけるAI推論の持続可能性について
- Authors: Ghazal Sobhani, Md. Monzurul Amin Ifath, Tushar Sharma, Israat Haque,
- Abstract要約: エッジデバイスはレイテンシクリティカルなアプリケーションをサポートするためにAI推論を実行する。
情報意思決定における性能とエネルギー利用に関する研究は行われていない。
モデルF1のスコア、推測時間、推論パワー、メモリ使用量のトレードオフを分析する。
- 参考スコア(独自算出の注目度): 3.71486243189764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of the Internet of Things (IoT) and its cutting-edge AI-enabled applications (e.g., autonomous vehicles and smart industries) combine two paradigms: data-driven systems and their deployment on the edge. Usually, edge devices perform inferences to support latency-critical applications. In addition to the performance of these resource-constrained edge devices, their energy usage is a critical factor in adopting and deploying edge applications. Examples of such devices include Raspberry Pi (RPi), Intel Neural Compute Stick (INCS), NVIDIA Jetson nano (NJn), and Google Coral USB (GCU). Despite their adoption in edge deployment for AI inferences, there is no study on their performance and energy usage for informed decision-making on the device and model selection to meet the demands of applications. This study fills the gap by rigorously characterizing the performance of traditional, neural networks, and large language models on the above-edge devices. Specifically, we analyze trade-offs among model F1 score, inference time, inference power, and memory usage. Hardware and framework optimization, along with external parameter tuning of AI models, can balance between model performance and resource usage to realize practical edge AI deployments.
- Abstract(参考訳): IoT(Internet of Things)の普及と、最先端のAI対応アプリケーション(自動運転車やスマート産業など)は、データ駆動システムとエッジへのデプロイメントという2つのパラダイムを組み合わせています。
通常、エッジデバイスは遅延クリティカルなアプリケーションをサポートするために推論を実行する。
これらのリソース制約されたエッジデバイスの性能に加えて、それらのエネルギー利用はエッジアプリケーションを採用およびデプロイする上で重要な要素である。
例えば、Raspberry Pi(RPi)、Intel Neural Compute Stick(INCS)、NVIDIA Jetson Nano(NJn)、Google Coral USB(GCU)などがある。
AI推論のためのエッジデプロイメントが採用されているにもかかわらず、デバイス上での情報決定と、アプリケーションの要求を満たすためのモデル選択において、そのパフォーマンスとエネルギー使用量についての研究は行われていない。
本研究は,従来のニューラルネットワークと,上述のデバイス上での大規模言語モデルの性能を厳格に評価することにより,ギャップを埋める。
具体的には、モデルF1スコア、推論時間、推論パワー、メモリ使用量間のトレードオフを分析する。
ハードウェアとフレームワークの最適化は、AIモデルの外部パラメータチューニングとともに、モデルパフォーマンスとリソース使用量のバランスを取り、実用的なエッジAIデプロイメントを実現する。
関連論文リスト
- Profiling AI Models: Towards Efficient Computation Offloading in Heterogeneous Edge AI Systems [0.2357055571094446]
本稿では、AIモデルのプロファイリング、モデルタイプと基盤となるハードウェアに関するデータ収集、リソース利用とタスク完了時間の予測に焦点を当てた研究ロードマップを提案する。
3,000以上の実行での実験は、リソース割り当ての最適化とEdge AIのパフォーマンス向上を約束している。
論文 参考訳(メタデータ) (2024-10-30T16:07:14Z) - Green Edge AI: A Contemporary Survey [46.11332733210337]
AIの変換力は、ディープニューラルネットワーク(DNN)の利用から導かれる。
ディープラーニング(DL)は、エンドユーザーデバイス(EUD)に近い無線エッジネットワークに移行しつつある。
その可能性にもかかわらず、エッジAIは大きな課題に直面している。主な原因は、無線エッジネットワークのリソース制限と、DLのリソース集約的な性質の分離である。
論文 参考訳(メタデータ) (2023-12-01T04:04:37Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - EPAM: A Predictive Energy Model for Mobile AI [6.451060076703027]
本稿では,異なるディープニューラルネットワーク(DNN)モデルと処理源を考慮したモバイルAIアプリケーションに関する総合的研究を紹介する。
4つの処理源を用いて,全モデルのレイテンシ,エネルギー消費,メモリ使用量を測定した。
私たちの研究は、CPU、GPU、NNAPIを使用して、異なるアプリケーション(ビジョンとノンビジョン)でモバイルAIがどのように振る舞うか、といった重要な洞察を強調しています。
論文 参考訳(メタデータ) (2023-03-02T09:11:23Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - How to Reach Real-Time AI on Consumer Devices? Solutions for
Programmable and Custom Architectures [7.085772863979686]
ディープニューラルネットワーク(DNN)は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらした。
このようなAIモデルをコモディティデバイスにデプロイすることは、大きな課題に直面している。
クロススタック手法によりリアルタイムな性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T11:23:12Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - Reliable Fleet Analytics for Edge IoT Solutions [0.0]
AIoTアプリケーションのエッジで機械学習を容易にするためのフレームワークを提案する。
コントリビューションは、大規模にフリート分析を提供するためのサービス、ツール、メソッドを含むアーキテクチャである。
本稿では,大学キャンパスの部屋でiotデバイスを用いた実験を行うことで,フレームワークの予備検証を行う。
論文 参考訳(メタデータ) (2021-01-12T11:28:43Z) - Cloud2Edge Elastic AI Framework for Prototyping and Deployment of AI
Inference Engines in Autonomous Vehicles [1.688204090869186]
本稿では、ディープラーニングモジュールに基づく自律運転アプリケーションのためのAI推論エンジンを開発するための新しいフレームワークを提案する。
我々は,ソフトウェア・イン・ザ・ループ(SiL)パラダイムに従って,クラウド上でプロトタイピングを行うAIコンポーネント開発サイクルに対して,シンプルでエレガントなソリューションを導入する。
提案フレームワークの有効性は,自律走行車用AI推論エンジンの2つの実例を用いて実証した。
論文 参考訳(メタデータ) (2020-09-23T09:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。