論文の概要: Accelerating Local AI on Consumer GPUs: A Hardware-Aware Dynamic Strategy for YOLOv10s
- arxiv url: http://arxiv.org/abs/2509.07928v1
- Date: Tue, 09 Sep 2025 17:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.412397
- Title: Accelerating Local AI on Consumer GPUs: A Hardware-Aware Dynamic Strategy for YOLOv10s
- Title(参考訳): コンシューマGPU上でのローカルAIの高速化 - YOLOv10のハードウェア対応動的戦略
- Authors: Mahmudul Islam Masum, Miad Islam, Arif I. Sarwat,
- Abstract要約: アーキテクチャ変更を必要としないモデル非依存のアプローチであるTwo-Pass Adaptive Inferenceアルゴリズムを導入する。
5000イメージのCOCOデータセット上では、PyTorch Early-Exitベースラインの1.85倍の高速化を実現し、mAP損失は5.51%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As local AI grows in popularity, there is a critical gap between the benchmark performance of object detectors and their practical viability on consumer-grade hardware. While models like YOLOv10s promise real-time speeds, these metrics are typically achieved on high-power, desktop-class GPUs. This paper reveals that on resource-constrained systems, such as laptops with RTX 4060 GPUs, performance is not compute-bound but is instead dominated by system-level bottlenecks, as illustrated by a simple bottleneck test. To overcome this hardware-level constraint, we introduce a Two-Pass Adaptive Inference algorithm, a model-independent approach that requires no architectural changes. This study mainly focuses on adaptive inference strategies and undertakes a comparative analysis of architectural early-exit and resolution-adaptive routing, highlighting their respective trade-offs within a unified evaluation framework. The system uses a fast, low-resolution pass and only escalates to a high-resolution model pass when detection confidence is low. On a 5000-image COCO dataset, our method achieves a 1.85x speedup over a PyTorch Early-Exit baseline, with a modest mAP loss of 5.51%. This work provides a practical and reproducible blueprint for deploying high-performance, real-time AI on consumer-grade devices by shifting the focus from pure model optimization to hardware-aware inference strategies that maximize throughput.
- Abstract(参考訳): ローカルAIが普及するにつれて、オブジェクト検出器のベンチマーク性能と、コンシューマグレードのハードウェア上での実用性の間には、重大なギャップがある。
YOLOv10sのようなモデルは、リアルタイムのスピードを約束するが、これらのメトリクスは通常、高出力のデスクトップクラスのGPUで達成される。
本稿では,RTX 4060 GPUを搭載したラップトップなどの資源制約システムにおいて,性能は計算バウンドではなく,単純なボトルネックテストによって示されるようなシステムレベルのボトルネックに支配されていることを示す。
このハードウェアレベルの制約を克服するために、アーキテクチャの変更を必要としないモデルに依存しないアプローチであるTwo-Pass Adaptive Inferenceアルゴリズムを導入する。
本研究は主に適応型推論戦略に焦点をあて、アーキテクチャの早期実行と分解適応ルーティングの比較分析を行い、統一評価フレームワークにおけるそれぞれのトレードオフを強調した。
このシステムは高速で低解像度のパスを使用し、検出信頼度が低い場合にのみ高解像度のパスにエスカレートする。
5000イメージのCOCOデータセット上では、PyTorch Early-Exitベースラインの1.85倍の高速化を実現し、mAP損失は5.51%である。
この作業は、純粋なモデル最適化からスループットを最大化するハードウェア対応推論戦略に焦点を移すことにより、コンシューマグレードデバイスに高性能でリアルタイムなAIをデプロイするための実用的で再現可能な青写真を提供する。
関連論文リスト
- Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文 参考訳(メタデータ) (2026-02-12T18:58:30Z) - AIE4ML: An End-to-End Framework for Compiling Neural Networks for the Next Generation of AMD AI Engines [3.4381029715186844]
AIE4MLはAIモデルをAIE-ML生成デバイスをターゲットにした最適化ファームウェアに自動的に変換するフレームワークである。
シングルカーネルベースラインと比較して98.6%の効率を実現しています。
実世界のモデルトポロジを評価することで、AIE4MLはマイクロ秒レイテンシ制約下でGPUクラスのスループットを提供することを示した。
論文 参考訳(メタデータ) (2025-12-17T20:13:05Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - A Comprehensive Evaluation of YOLO-based Deer Detection Performance on Edge Devices [6.486957474966142]
鹿の侵入による農業の経済的損失は、アメリカで毎年数億ドルに上っていると推定され、伝統的な緩和戦略の不適切さを浮き彫りにした。
このことは、リアルタイムの鹿検出と抑止能力を持つインテリジェントで自律的なソリューションに対する重要なニーズを浮き彫りにしている。
本研究では,シカ検出のための最先端深層学習モデルの総合的評価を行う。
論文 参考訳(メタデータ) (2025-09-24T17:01:50Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [78.18946529195254]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices [11.05223262950967]
音声認識ソフトウェアは、リソースを意識した推論中にニューラルネットワークの計算負荷を調整する必要がある。
早期の外部アーキテクチャは、入力をレイヤのサブセットで処理し、中間ブランチで終了する。
自動音声認識アプリケーションには、可変フレームレート分析を適用するメモリ効率のよいニューラルアーキテクチャがある。
このようにして、標準ベンチマークにおける音声認識性能は、モデルパラメータの総数の増加を少なく抑えて大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-22T13:34:18Z) - Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers [22.349130691342687]
ビデオ拡散変換器 (vDiT) は, テキスト・ビデオ生成において顕著な進歩を遂げているが, その高い計算要求は, 実用的展開において大きな課題を呈している。
本稿では,vDiTをベースとしたビデオ生成において,ほぼ最適設定を検索する自動フレームワークであるASTRAEAを紹介する。
論文 参考訳(メタデータ) (2025-06-05T14:41:38Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Layer Ensemble Averaging for Improving Memristor-Based Artificial Neural Network Performance [0.6560901506023631]
memristorsのようなインメモリの計算アーキテクチャは、ハードウェアの非理想性によって、将来性はあるが課題に直面している。
レイヤアンサンブル平均化は、事前学習されたニューラルネットワークソリューションをソフトウェアから欠陥のあるハードウェアクロスバーにマッピングするテクニックである。
その結果、レイヤアンサンブル平均化は、ソフトウェアベースラインまで、欠陥のあるメモリネットワーク性能を確実に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-04-24T03:19:31Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z) - AIPerf: Automated machine learning as an AI-HPC benchmark [17.57686674304368]
自動機械学習(AutoML)を利用したエンドツーエンドベンチマークスイートを提案する。
アルゴリズムを並列かつ柔軟な方法で実装し、多様なシステムにおける効率性と最適化の可能性を保証する。
フレキシブルなワークロードと単一のメトリックによって、私たちのベンチマークはAI-HPCのスケールとランク付けが容易になります。
論文 参考訳(メタデータ) (2020-08-17T08:06:43Z) - Latency-Aware Differentiable Neural Architecture Search [113.35689580508343]
近年、探索コストの低さと検索空間設計の柔軟性から、微分可能なニューラルネットワーク探索法が人気を博している。
しかし、これらの手法はネットワーク最適化の難しさに悩まされており、検索されたネットワークはハードウェアに不便な場合が多い。
本稿では,この問題を最適化に微分可能な遅延損失項を追加することにより,精度とレイテンシのトレードオフをバランス係数で行うことができる。
論文 参考訳(メタデータ) (2020-01-17T15:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。