論文の概要: Hardware optimization on Android for inference of AI models
- arxiv url: http://arxiv.org/abs/2511.13453v1
- Date: Mon, 17 Nov 2025 14:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.313826
- Title: Hardware optimization on Android for inference of AI models
- Title(参考訳): AIモデル推論のためのAndroidのハードウェア最適化
- Authors: Iulius Gherasim, Carlos García Sánchez,
- Abstract要約: オブジェクト検出(YOLOファミリー)と画像分類(ResNet)の2つの重要なタスクに着目し,Androidシステム上でのAIモデルの最適実行構成を提案する。
我々の中核的な目的は、最小精度の劣化と最大推論速度の最高のトレードオフを達成するための組合せを実証的に決定することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.
- Abstract(参考訳): 人工知能モデルの現代モバイルコンピューティングへの広範な統合は、仮想アシスタントから高度な画像処理に至るまで、多くのユースケースで顕著である。
モバイルユーザエクスペリエンスの最適化には、リアルタイム制約を完全に活用する実行戦略から、異種ハードウェアアーキテクチャの活用に至るまで、デプロイされたAIモデルからの最小のレイテンシと高い応答性が含まれる。
本稿では,オブジェクト検出(YOLOファミリー)と画像分類(ResNet)の2つの重要なタスクに着目し,Androidシステム上でのAIモデルの最適実行構成について検討し,提案する。
これらの構成は、様々なモデル量子化スキームとデバイスアクセラレータ、特にGPUとNPUの利用を評価する。
我々の中核的な目的は、最小精度の劣化と最大推論速度の最高のトレードオフを達成するための組合せを実証的に決定することである。
関連論文リスト
- MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Benchmarking Deep Learning Models on NVIDIA Jetson Nano for Real-Time Systems: An Empirical Investigation [2.3636539018632616]
この研究は、複雑なディープラーニングモデルの最適化を実証的に研究し、組み込みデバイス上で機能を分析する。
画像分類と映像行動検出のための推論速度の観点から最適化されたモデルの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:34:52Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Which Design Decisions in AI-enabled Mobile Applications Contribute to
Greener AI? [7.194465440864905]
このレポートは、AI対応アプリケーションの性能に対する設計決定の影響を定量化する実証的研究を行う計画で構成されている。
我々は、複数の画像分類とテキスト分類問題を解決するために、モバイルアプリケーションに画像ベースニューラルネットワークと言語ベースニューラルネットワークの両方を実装します。
論文 参考訳(メタデータ) (2021-09-28T07:30:28Z) - How to Reach Real-Time AI on Consumer Devices? Solutions for
Programmable and Custom Architectures [7.085772863979686]
ディープニューラルネットワーク(DNN)は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらした。
このようなAIモデルをコモディティデバイスにデプロイすることは、大きな課題に直面している。
クロススタック手法によりリアルタイムな性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T11:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。