論文の概要: An Efficient Real-Time Object Detection Framework on Resource-Constricted Hardware Devices via Software and Hardware Co-design
- arxiv url: http://arxiv.org/abs/2408.01534v2
- Date: Tue, 20 Aug 2024 04:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-21 19:00:29.720258
- Title: An Efficient Real-Time Object Detection Framework on Resource-Constricted Hardware Devices via Software and Hardware Co-design
- Title(参考訳): 資源制約型ハードウェアデバイスにおけるソフトウェアとハードウェアの共同設計による効率的なリアルタイムオブジェクト検出フレームワーク
- Authors: Mingshuo Liu, Shiyi Luo, Kevin Han, Bo Yuan, Ronald F. DeMara, Yu Bai,
- Abstract要約: 本稿では,ハードウェアとソフトウェアの共同設計による資源制約のあるハードウェアデバイス上での効率的なリアルタイムオブジェクト検出フレームワークを提案する。
その結果,提案手法はモデルサイズを大幅に削減し,実行時間を短縮できることがわかった。
- 参考スコア(独自算出の注目度): 11.857890662690448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fast development of object detection techniques has attracted attention to developing efficient Deep Neural Networks (DNNs). However, the current state-of-the-art DNN models can not provide a balanced solution among accuracy, speed, and model size. This paper proposes an efficient real-time object detection framework on resource-constrained hardware devices through hardware and software co-design. The Tensor Train (TT) decomposition is proposed for compressing the YOLOv5 model. By unitizing the unique characteristics given by the TT decomposition, we develop an efficient hardware accelerator based on FPGA devices. Experimental results show that the proposed method can significantly reduce the model size and improve the execution time.
- Abstract(参考訳): 物体検出技術の急速な発展は、効率的なディープニューラルネットワーク(DNN)の開発に注目を集めている。
しかし、現在の最先端のDNNモデルは、精度、速度、モデルサイズでバランスのとれたソリューションを提供できない。
本稿では,ハードウェアとソフトウェアの共同設計による資源制約のあるハードウェアデバイス上での効率的なリアルタイムオブジェクト検出フレームワークを提案する。
YOLOv5モデルを圧縮するために, テンソルトレイン(TT)分解法を提案する。
TT分解によって得られる特徴を統一することにより,FPGAデバイスに基づく効率的なハードウェアアクセラレータを開発する。
実験の結果,提案手法はモデルサイズを大幅に削減し,実行時間を短縮できることがわかった。
関連論文リスト
- Performance and Complexity Trade-off Optimization of Speech Models During Training [5.335528687192602]
音声機械学習では、ニューラルネットワークモデルは通常、固定された層の大きさと構造を持つアーキテクチャを選択することで設計される。
全体的なアーキテクチャは通常、タスクの事前の知識によってガイドされるが、個々のレイヤのサイズは、しばしば選択される。
プルーニング法とは異なり,本手法では,対象の性能・複雑さのトレードオフに対して,モデルサイズを動的に最適化する。
論文 参考訳(メタデータ) (2026-01-20T08:00:05Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Self-Composing Neural Operators with Depth and Accuracy Scaling via Adaptive Train-and-Unroll Approach [12.718377513965912]
本稿では,自己合成によるニューラル演算子の効率性と精度を高める新しい枠組みを提案する。
数値偏微分方程式 (PDE) を解くための反復的手法に着想を得て, 1つのニューラル演算子ブロックを繰り返し適用して, 特定のニューラル演算子を設計する。
適応型トレイン・アンド・アンロールアプローチを導入し、トレーニング中にニューラル演算子の深さが徐々に増加する。
論文 参考訳(メタデータ) (2025-08-28T10:53:00Z) - AutoSGD: Automatic Learning Rate Selection for Stochastic Gradient Descent [58.05410015124021]
本稿では,SGD法であるAutoSGDを紹介する。
実験結果から,従来の最適化問題や機械学習タスクにおいて,この手法の強い性能が示唆された。
論文 参考訳(メタデータ) (2025-05-27T18:25:21Z) - Leveraging Stochastic Depth Training for Adaptive Inference [1.996143466020199]
本稿では,ゼロオーバーヘッド,単一モデル,時間予測可能な推論を用いた適応推論の簡易かつ効果的な代替手法を提案する。
従来のResNetと比較して、精度0.71%の低下で最大2倍の効率向上を実現した。
論文 参考訳(メタデータ) (2025-05-23T08:36:56Z) - CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics [7.696109414724968]
スパイキングニューラルネットワーク(SNN)は、イベントベースのオブジェクト認識と検出を約束する。
既存のSNNフレームワークは、多くの場合、マルチスケールの時間的特徴を扱うことができず、データの冗長性が向上し、精度が低下する。
我々は、イベントベースのオブジェクト検出を利用するために、結合的にトレーニングされた新しいスパイク駆動フレームワークであるCRESTを提案する。
論文 参考訳(メタデータ) (2024-12-17T04:33:31Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - Unified Framework for Pre-trained Neural Network Compression via Decomposition and Optimized Rank Selection [3.1879514593973197]
本稿では, 階数制約内での複合圧縮損失を利用して, 分解と階数選択を適用した統一的な枠組みを提案する。
提案手法は連続空間におけるランクの自動探索を含み,事前学習モデルに対する最適なランク設定を効率的に同定する。
様々なベンチマークデータセットとモデルを用いて、包括的分析により、本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-05T14:15:54Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z) - Lightweight Residual Densely Connected Convolutional Neural Network [18.310331378001397]
畳み込みニューラルネットワークの深い監督, 効率的な勾配流, 特徴再利用能力を保証するために, 軽量な高密度連結ブロックを提案する。
提案手法は,特別なハードウェア・ソフトウェア機器を使わずに,トレーニングと推論のコストを低減させる。
論文 参考訳(メタデータ) (2020-01-02T17:15:32Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。