Fugu-MT 論文翻訳(概要): CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities

論文の概要: CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities

arxiv url: http://arxiv.org/abs/2603.26425v2
Date: Mon, 30 Mar 2026 14:01:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 13:48:18.843348
Title: CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities
Title（参考訳）: CPUBone: 並列化能力の低いデバイスのための効率的なビジョンバックボーン設計
Authors: Moritz Nottebaum, Matteo Dunnhofer, Christian Micheloni,
Abstract要約: CPUベースの推論に最適化された新しいビジョンバックボーンモデルであるCPUBoneを紹介する。 CPUBoneは、幅広いCPUデバイスにわたる最先端のSpeed-Accuracy Trade-offs(SAT)を実現する。
参考スコア（独自算出の注目度）: 8.982222466965384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research on vision backbone architectures has predominantly focused on optimizing efficiency for hardware platforms with high parallel processing capabilities. This category increasingly includes embedded systems such as mobile phones and embedded AI accelerator modules. In contrast, CPUs do not have the possibility to parallelize operations in the same manner, wherefore models benefit from a specific design philosophy that balances amount of operations (MACs) and hardware-efficient execution by having high MACs per second (MACpS). In pursuit of this, we investigate two modifications to standard convolutions, aimed at reducing computational cost: grouping convolutions and reducing kernel sizes. While both adaptations substantially decrease the total number of MACs required for inference, sustaining low latency necessitates preserving hardware-efficiency. Our experiments across diverse CPU devices confirm that these adaptations successfully retain high hardware-efficiency on CPUs. Based on these insights, we introduce CPUBone, a new family of vision backbone models optimized for CPU-based inference. CPUBone achieves state-of-the-art Speed-Accuracy Trade-offs (SATs) across a wide range of CPU devices and effectively transfers its efficiency to downstream tasks such as object detection and semantic segmentation. Models and code are available at https://github.com/altair199797/CPUBone.
Abstract（参考訳）: 最近のビジョンバックボーンアーキテクチャの研究は、高い並列処理能力を持つハードウェアプラットフォームの効率最適化に重点を置いている。このカテゴリには、携帯電話や組み込みAIアクセラレータモジュールなどの組み込みシステムが含まれている。対照的に、CPUはオペレーションを同じ方法で並列化する可能性を持たず、当時モデルでは、操作量(MAC)とハードウェア効率(MACpS)のバランスをとる特定の設計思想の恩恵を受けていた。そこで本研究では,コンボリューションのグループ化とカーネルサイズ削減という,計算コストの削減を目的とした,標準的な畳み込みに対する2つの修正について検討する。どちらの適応も推論に必要なMACの総数は大幅に減少するが、低レイテンシを維持するためにはハードウェア効率を維持する必要がある。多様なCPUデバイスを対象とした実験により、これらの適応がCPU上で高いハードウェア効率を維持することが確認された。これらの知見に基づいて、CPUベースの推論に最適化された新しいビジョンバックボーンモデルであるCPUBoneを紹介する。 CPUBoneは、幅広いCPUデバイスにわたる最先端のSpeed-Accuracy Trade-off(SAT)を実現し、その効率をオブジェクト検出やセマンティックセグメンテーションといった下流タスクに効果的に転送する。モデルとコードはhttps://github.com/altair 199797/CPUBoneで入手できる。

関連論文リスト

Benchmarking Deep Learning Convolutions on Energy-constrained CPUs [0.0]
この研究は、CPUベースのディープラーニング推論のための最先端の畳み込みアルゴリズムを評価する。我々は、ARM __、Intel __、AMD __、Apple __、Nvidia __から、最新のCPU間で直接、GEMMベースの、Winogradの畳み込みをベンチマークした。
論文参考訳（メタデータ） (2025-09-30T13:19:00Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。