論文の概要: MotionDeltaCNN: Sparse CNN Inference of Frame Differences in Moving
Camera Videos
- arxiv url: http://arxiv.org/abs/2210.09887v1
- Date: Tue, 18 Oct 2022 14:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:54:56.928565
- Title: MotionDeltaCNN: Sparse CNN Inference of Frame Differences in Moving
Camera Videos
- Title(参考訳): MotionDeltaCNN:移動カメラ映像におけるフレーム差のスパースCNN推論
- Authors: Mathias Parger, Chengcheng Tang, Christopher D. Twigg, Cem Keskin,
Robert Wang, Markus Steinberger
- Abstract要約: ビデオ入力に対する畳み込みニューラルネットワークの推論は計算コストが高く、メモリ帯域幅の要求が高い。
移動カメラと可変解像度入力をサポートするCNNフレームワークであるMotionDeltaCNNを提案する。
- 参考スコア(独自算出の注目度): 13.02282662201437
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional neural network inference on video input is computationally
expensive and has high memory bandwidth requirements. Recently, researchers
managed to reduce the cost of processing upcoming frames by only processing
pixels that changed significantly. Using sparse convolutions, the sparsity of
frame differences can be translated to speedups on current inference devices.
However, previous work was relying on static cameras. Moving cameras add new
challenges in how to fuse newly unveiled image regions with already processed
regions efficiently to minimize the update rate - without increasing memory
overhead and without knowing the camera extrinsics of future frames. In this
work, we propose MotionDeltaCNN, a CNN framework that supports moving cameras
and variable resolution input. We propose a spherical buffer which enables
seamless fusion of newly unveiled regions and previously processed regions -
without increasing the memory footprint. Our evaluations show that we
outperform previous work significantly by explicitly adding support for moving
camera input.
- Abstract(参考訳): ビデオ入力に対する畳み込みニューラルネットワークの推論は計算コストが高く、メモリ帯域幅の要求が高い。
最近の研究者たちは、大きく変化したピクセルだけを処理することで、今後のフレームを処理するコストを削減できた。
スパース畳み込みを用いることで、フレーム差の間隔を現在の推論デバイス上のスピードアップに変換することができる。
しかし、以前の仕事は静止カメラに頼っていた。
移動カメラは、メモリオーバーヘッドを増大させることなく、将来のフレームのカメラ外在を知らずに、既に処理済みの領域を効率的に融合して更新率を最小化するための新しい課題を新たにもたらす。
本研究では,移動カメラと可変解像度入力をサポートするCNNフレームワークであるMotionDeltaCNNを提案する。
本稿では,メモリフットプリントを増加させずに,新たに現れた領域と前処理された領域をシームレスに融合できる球形バッファを提案する。
本評価は,移動カメラ入力のサポートを明示的に追加することにより,過去の作業を大幅に上回ることを示す。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - PadChannel: Improving CNN Performance through Explicit Padding Encoding [40.39759037668144]
畳み込みニューラルネットワーク(CNN)では、パディングは層全体の空間的次元を保存する上で重要な役割を果たす。
従来のパディング技術は、実際の画像内容とパッド領域を明確に区別するものではない。
本研究では,パディングステータスを付加的な入力チャネルとしてエンコードする新しいパディング手法PadChannelを提案する。
論文 参考訳(メタデータ) (2023-11-13T07:44:56Z) - EvConv: Fast CNN Inference on Event Camera Inputs For High-Speed Robot
Perception [1.3869227429939426]
イベントカメラは、高時間分解能と広いダイナミックレンジで視覚情報をキャプチャする。
イベントカメラストリーム上の現在の畳み込みニューラルネットワーク推論は、イベントカメラが動作している高速で、現在リアルタイムの推論を実行できない。
本稿では,イベントカメラからの入力に対して,CNN上で高速な推論を可能にする新しいアプローチであるEvConvを提案する。
論文 参考訳(メタデータ) (2023-03-08T15:47:13Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - DeltaCNN: End-to-End CNN Inference of Sparse Frame Differences in Videos [16.644938608211202]
ビデオデータ上の畳み込みニューラルネットワーク推論は、リアルタイム処理に強力なハードウェアを必要とする。
スパースフレーム・バイ・フレーム更新を可能にするスパース畳み込みニューラルネットワークフレームワークを提案する。
我々は,厳密な参照であるcuDNNを,精度の限界差のみで最大7倍のスピードアップを達成するために,初めて性能を向上した。
論文 参考訳(メタデータ) (2022-03-08T10:54:00Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Reducing the Sim-to-Real Gap for Event Cameras [64.89183456212069]
イベントカメラは、非同期でピクセルごとの明るさ変化を報告し、非並列の低レイテンシで「イベント」と呼ばれるパラダイムシフトする新しいセンサーである。
近年の研究では、コンボリューショナルニューラルネットワーク(CNN)を用いて、映像再構成とイベントによる光学的流れを実証している。
既存のビデオ再構成ネットワークの性能を20~40%向上させるイベントベースCNNのトレーニングデータ改善戦略を提案する。
論文 参考訳(メタデータ) (2020-03-20T02:44:29Z) - Event-Based Angular Velocity Regression with Spiking Networks [51.145071093099396]
スパイキングニューラルネットワーク(SNN)は、数値ではなく時間スパイクとして伝達される情報を処理する。
本稿では,イベントカメラから与えられた事象の時間回帰問題を初めて提案する。
角速度回帰を行うためにSNNをうまく訓練できることが示される。
論文 参考訳(メタデータ) (2020-03-05T17:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。