論文の概要: Coarse-Fine Networks for Temporal Activity Detection in Videos
- arxiv url: http://arxiv.org/abs/2103.01302v1
- Date: Mon, 1 Mar 2021 20:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 22:05:16.167191
- Title: Coarse-Fine Networks for Temporal Activity Detection in Videos
- Title(参考訳): ビデオにおける時間的活動検出のための粗細ネットワーク
- Authors: Kumara Kahatapitiya and Michael S. Ryoo
- Abstract要約: Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
- 参考スコア(独自算出の注目度): 45.03545172714305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce 'Coarse-Fine Networks', a two-stream architecture
which benefits from different abstractions of temporal resolution to learn
better video representations for long-term motion. Traditional Video models
process inputs at one (or few) fixed temporal resolution without any dynamic
frame selection. However, we argue that, processing multiple temporal
resolutions of the input and doing so dynamically by learning to estimate the
importance of each frame can largely improve video representations, specially
in the domain of temporal activity localization. To this end, we propose (1)
`Grid Pool', a learned temporal downsampling layer to extract coarse features,
and, (2) `Multi-stage Fusion', a spatio-temporal attention mechanism to fuse a
fine-grained context with the coarse features. We show that our method can
outperform the state-of-the-arts for action detection in public datasets
including Charades with a significantly reduced compute and memory footprint.
- Abstract(参考訳): 本稿では,時間分解能の異なる抽象化により,長期動作のためのより良い映像表現を学習できる2ストリームアーキテクチャであるcoarse-fine networksを提案する。
従来のビデオモデルは、動的フレーム選択なしで1つまたは少数の固定時間解像度で入力を処理する。
しかし,入力の複数の時間分解能を処理し,各フレームの重要性を推定することで動的に行うことは,特に時間的活動の局所化の領域において映像表現を大幅に改善することができると論じる。
そこで,(1)粗い特徴を抽出するために学習された時間的ダウンサンプリング層である「グリッドプール」と,2)粗い特徴と微粒な文脈を融合させる時空間的注意メカニズムである「多段階融合」を提案する。
計算量やメモリフットプリントを大幅に削減したCharadesを含む公開データセットにおいて,動作検出の最先端性を向上できることを示す。
関連論文リスト
- Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。