論文の概要: Look More but Care Less in Video Recognition
- arxiv url: http://arxiv.org/abs/2211.09992v1
- Date: Fri, 18 Nov 2022 02:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:49:20.270786
- Title: Look More but Care Less in Video Recognition
- Title(参考訳): ビデオ認識における注意力の低下
- Authors: Yitian Zhang, Yue Bai, Huan Wang, Yi Xu, Yun Fu
- Abstract要約: アクション認識法は通常、巨大な計算を避けるために、各ビデオを表すためにいくつかのフレームをサンプリングする。
本稿では,より多くのフレームを利用するために2つのブランチで構成されるAmple and Focal Network (AFNet)を提案する。
- 参考スコア(独自算出の注目度): 57.96505328398205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing action recognition methods typically sample a few frames to
represent each video to avoid the enormous computation, which often limits the
recognition performance. To tackle this problem, we propose Ample and Focal
Network (AFNet), which is composed of two branches to utilize more frames but
with less computation. Specifically, the Ample Branch takes all input frames to
obtain abundant information with condensed computation and provides the
guidance for Focal Branch by the proposed Navigation Module; the Focal Branch
squeezes the temporal size to only focus on the salient frames at each
convolution block; in the end, the results of two branches are adaptively fused
to prevent the loss of information. With this design, we can introduce more
frames to the network but cost less computation. Besides, we demonstrate AFNet
can utilize fewer frames while achieving higher accuracy as the dynamic
selection in intermediate features enforces implicit temporal modeling.
Further, we show that our method can be extended to reduce spatial redundancy
with even less cost. Extensive experiments on five datasets demonstrate the
effectiveness and efficiency of our method.
- Abstract(参考訳): 既存の動作認識手法は、通常、巨大な計算を避けるために、各ビデオを表すためにいくつかのフレームをサンプリングする。
この問題に対処するため、より多くのフレームを利用するために2つのブランチで構成されるAmple and Focal Network (AFNet)を提案する。
具体的には、アンプルブランチは、全ての入力フレームを取り込み、凝縮した計算で豊富な情報を取得し、提案するナビゲーションモジュールにより焦点分岐のガイダンスを提供し、焦点分岐は、各畳み込みブロックにおけるサルエントフレームにのみ焦点を合わせる時間サイズを絞り、最後に2つの分岐の結果を適応的に融合して情報損失を防止する。
この設計により、より多くのフレームをネットワークに導入できるが、計算コストは削減できる。
さらに,中間的特徴の動的選択が暗黙的な時間的モデリングを強制するので,afnetはより少ないフレームを活用できることを示す。
さらに,提案手法を拡張して空間冗長性を低減できることを示す。
5つのデータセットに対する大規模な実験により,本手法の有効性と有効性を示した。
関連論文リスト
- Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Efficient Flow-Guided Multi-frame De-fencing [7.504789972841539]
デフェンシング(de-fencing)は、画像からそのような障害を自動的に除去するアルゴリズムプロセスである。
本研究では,ブロックされたフレームから直接高品質なフローマップを演算するマルチフレームデフェンシングのためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-01-25T18:42:59Z) - Alignment-guided Temporal Attention for Video Action Recognition [18.5171795689609]
フレームごとのアライメントは、フレーム表現間の相互情報を増大させる可能性があることを示す。
隣接フレーム間のパラメータフリーパッチレベルのアライメントで1次元の時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:10:47Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。