論文の概要: Fast Motion Estimation and Context-Aware Refinement for Efficient Bayer-Domain Video Vision
- arxiv url: http://arxiv.org/abs/2508.05990v1
- Date: Fri, 08 Aug 2025 03:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.067562
- Title: Fast Motion Estimation and Context-Aware Refinement for Efficient Bayer-Domain Video Vision
- Title(参考訳): 効率的なバイエルドメイン映像ビジョンのための動き推定とコンテキスト認識の高速化
- Authors: Haichao Wang, Xinyue Xi, Jiangtao Wen, Yuxing Han,
- Abstract要約: ビデオコンピュータビジョンシステムの効率性は、ビデオ内の時間的冗長性が高いため、依然として困難な課題である。
コンピュータビジョンの効率化のために既存の作業が提案されているが、時間的冗長性を完全に低減し、フロントエンドの計算オーバーヘッドを無視するものではない。
本稿では,効率的な映像コンピュータビジョンシステムを提案する。まず,画像信号処理装置を取り除き,バイアフォーマットデータを直接ビデオコンピュータビジョンモデルに入力することで,フロントエンドの計算を省く。
- 参考スコア(独自算出の注目度): 12.940116042097847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The efficiency of video computer vision system remains a challenging task due to the high temporal redundancy inside a video. Existing works have been proposed for efficient vision computer vision. However, they do not fully reduce the temporal redundancy and neglect the front end computation overhead. In this paper, we propose an efficient video computer vision system. First, image signal processor is removed and Bayer-format data is directly fed into video computer vision models, thus saving the front end computation. Second, instead of optical flow models and video codecs, a fast block matching-based motion estimation algorithm is proposed specifically for efficient video computer vision, with a MV refinement module. To correct the error, context-aware block refinement network is introduced to refine regions with large error. To further balance the accuracy and efficiency, a frame selection strategy is employed. Experiments on multiple video computer vision tasks demonstrate that our method achieves significant acceleration with slight performance loss.
- Abstract(参考訳): ビデオコンピュータビジョンシステムの効率性は、ビデオ内の時間的冗長性が高いため、依然として困難な課題である。
効率的な視覚コンピュータビジョンのための既存の研究が提案されている。
しかし、時間的冗長性を完全に低減せず、フロントエンドの計算オーバーヘッドを無視する。
本稿では,効率的な映像コンピュータビジョンシステムを提案する。
まず、画像信号処理装置を除去し、バイヤフォーマットデータをビデオコンピュータビジョンモデルに直接供給し、フロントエンドの計算を節約する。
第2に,光フローモデルとビデオコーデックの代わりに,MVリファインメントモジュールを用いた効率的な映像コンピュータビジョンのための高速ブロックマッチングに基づく動き推定アルゴリズムを提案する。
エラーを訂正するために、コンテキスト対応ブロック精細ネットワークを導入し、大きなエラーで領域を精細化する。
さらに精度と効率のバランスをとるために、フレーム選択戦略を採用する。
複数のコンピュータビジョンタスクの実験により,本手法が性能損失をわずかに低減し,大幅な加速を実現することを示す。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Vision-Language Models Learn Super Images for Efficient Partially
Relevant Video Retrieval [2.303098021872002]
本稿では,部分的関連ビデオ検索のための効率的かつ高性能な手法を提案する。
入力テキストクエリに関連する少なくとも1つのモーメントを含む長いビデオを取得することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T08:38:27Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Borrowing from yourself: Faster future video segmentation with partial
channel update [0.0]
本稿では,時間依存型チャネルマスキングを用いた畳み込み層を用いて,将来的な映像セグメンテーション予測の課題に取り組むことを提案する。
このテクニックは、各タイミングでフィーチャーマップの選ばれたサブセットだけを更新し、同時に計算とレイテンシを削減します。
この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。
論文 参考訳(メタデータ) (2022-02-11T16:37:53Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。