論文の概要: BILLNET: A Binarized Conv3D-LSTM Network with Logic-gated residual architecture for hardware-efficient video inference
- arxiv url: http://arxiv.org/abs/2501.14495v1
- Date: Fri, 24 Jan 2025 13:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:06.863241
- Title: BILLNET: A Binarized Conv3D-LSTM Network with Logic-gated residual architecture for hardware-efficient video inference
- Title(参考訳): BILLNET: ハードウェア効率の良いビデオ推論のための論理ゲート残差アーキテクチャによるバイナリ化されたConv3D-LSTMネットワーク
- Authors: Van Thien Nguyen, William Guicquero, Gilles Sicard,
- Abstract要約: Long Short-Term Memory (LSTM) と 3D Convolution (Conv3D) は、多くのビデオベースアプリケーションに対して印象的な結果を示すが、大きなメモリと集中型コンピューティングを必要とする。
資源制約の高いハードウェアと互換性のある,コンパクトな二項化 Conv3D-LSTM モデルアーキテクチャ BILLNET を提案する。
Jester データセットの結果から,本手法はメモリと計算の予算が極端に低い場合に高い精度が得られることが示された。
- 参考スコア(独自算出の注目度): 2.7036595757881323
- License:
- Abstract: Long Short-Term Memory (LSTM) and 3D convolution (Conv3D) show impressive results for many video-based applications but require large memory and intensive computing. Motivated by recent works on hardware-algorithmic co-design towards efficient inference, we propose a compact binarized Conv3D-LSTM model architecture called BILLNET, compatible with a highly resource-constrained hardware. Firstly, BILLNET proposes to factorize the costly standard Conv3D by two pointwise convolutions with a grouped convolution in-between. Secondly, BILLNET enables binarized weights and activations via a MUX-OR-gated residual architecture. Finally, to efficiently train BILLNET, we propose a multi-stage training strategy enabling to fully quantize LSTM layers. Results on Jester dataset show that our method can obtain high accuracy with extremely low memory and computational budgets compared to existing Conv3D resource-efficient models.
- Abstract(参考訳): Long Short-Term Memory (LSTM) と 3D Convolution (Conv3D) は、多くのビデオベースアプリケーションに対して印象的な結果を示すが、大きなメモリと集中型コンピューティングを必要とする。
ハードウェアとアルゴリズムの共設計による効率的な推論に向けた最近の研究により,BILLNETと呼ばれるコンパクトな二項化Conv3D-LSTMモデルアーキテクチャを提案する。
まず、BILLNETはコストのかかる標準のConv3Dを、グループ化された畳み込みによる2つの点の畳み込みによって分解することを提案する。
第二に、BILLNETはMUX-OR-gated 残差アーキテクチャによって二項化重み付けとアクティベーションを可能にする。
最後に、BILLNETを効率的にトレーニングするために、LSTM層を完全に定量化できる多段階トレーニング戦略を提案する。
Jester データセットの結果,提案手法は既存の Conv3D 資源効率モデルと比較して,メモリと計算予算が極端に低い場合に高い精度が得られることが示された。
関連論文リスト
- RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices [0.30458577208819987]
我々は抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)の開発を目指している。
本稿では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。
NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-09-27T15:35:36Z) - CiMNet: Towards Joint Optimization for DNN Architecture and Configuration for Compute-In-Memory Hardware [6.308771129448823]
計算インメモリ(CiM)のための最適なサブネットワークとハードウェア構成を共同で検索するフレームワークであるCiMNetを提案する。
提案するフレームワークは、サブネットワークの性能とCiMハードウェア構成選択の間の複雑な相互作用を理解することができる。
論文 参考訳(メタデータ) (2024-02-19T02:12:07Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - VolumeNet: A Lightweight Parallel Network for Super-Resolution of
Medical Volumetric Data [20.34783243852236]
並列接続を用いたParallelNetと呼ばれる医療ボリュームデータのSRのための3次元畳み込みニューラルネットワーク(CNN)を提案する。
本稿では,提案手法によりモデルパラメータの数を著しく削減し,高精度な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:53:15Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。