論文の概要: Challenge report:VIPriors Action Recognition Challenge
- arxiv url: http://arxiv.org/abs/2007.08180v1
- Date: Thu, 16 Jul 2020 08:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:26:39.008770
- Title: Challenge report:VIPriors Action Recognition Challenge
- Title(参考訳): 課題報告:VIPriors Action Recognition Challenge
- Authors: Zhipeng Luo, Dawei Xu, Zhiguang Zhang
- Abstract要約: アクション認識は完全な応用のために多くの研究者を惹きつけてきたが、それでも挑戦的だ。
本稿では,従来の手法について検討し,提案手法を提案する。
残差フレームを入力としてビデオから動画の特徴を抽出するために,高速だが効果的な手法を用いる。
- 参考スコア(独自算出の注目度): 14.080142383692417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is a brief report to our submission to the VIPriors Action
Recognition Challenge. Action recognition has attracted many researchers
attention for its full application, but it is still challenging. In this paper,
we study previous methods and propose our method. In our method, we are
primarily making improvements on the SlowFast Network and fusing with TSM to
make further breakthroughs. Also, we use a fast but effective way to extract
motion features from videos by using residual frames as input. Better motion
features can be extracted using residual frames with SlowFast, and the
residual-frame-input path is an excellent supplement for existing
RGB-frame-input models. And better performance obtained by combining 3D
convolution(SlowFast) with 2D convolution(TSM). The above experiments were all
trained from scratch on UCF101.
- Abstract(参考訳): 本報告は,VIPriors Action Recognition Challengeへの提出に関する簡単な報告である。
アクション認識は完全な応用のために多くの研究者を惹きつけてきたが、それでも挑戦的だ。
本稿では,先行手法について検討し,提案手法を提案する。
提案手法では,slowfastネットワークの改善と,tsmによるさらなるブレークスルーの実現を主な目的としている。
また,残差フレームを入力としてビデオから動画の特徴を抽出するために,高速かつ効果的な手法を用いる。
より高速な残差フレームを用いてより優れたモーション特徴を抽出することができ、残差フレーム入力パスは既存のrgbフレーム入力モデルにとって優れた補足である。
そして、3D畳み込み(SlowFast)と2D畳み込み(TSM)を組み合わせることで得られるより良い性能を得る。
上記の実験はすべて、UCF101でスクラッチからトレーニングされた。
関連論文リスト
- DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Towards Frame Rate Agnostic Multi-Object Tracking [76.82407173177138]
本稿では,FraMOT 問題に初めて取り組むために,FAPS を用いたフレームレート非依存MOT フレームワークを提案する。
具体的には,フレームレート情報を推論し,符号化するフレームレートアグノスティックアソシエーションモジュール(FAAM)を提案する。
FAPSは、パターンマッチングと融合を追跡することによって、トレーニングにおけるすべての後処理ステップを反映する。
論文 参考訳(メタデータ) (2022-09-23T04:25:19Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition [10.185425416255294]
そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
論文 参考訳(メタデータ) (2020-08-03T17:40:17Z) - Motion Representation Using Residual Frames with 3D CNN [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残留フレームに置き換えることで、トップ1の精度よりも35.6%と26.6%の改善点が得られる。
論文 参考訳(メタデータ) (2020-06-21T07:35:41Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - TapLab: A Fast Framework for Semantic Video Segmentation Tapping into
Compressed-Domain Knowledge [161.4188504786512]
リアルタイムセマンティックビデオセグメンテーションは、推論速度の厳格な要件のために難しい課題である。
最近のアプローチは主に、高効率のモデルサイズ削減に多大な努力を払っている。
我々は、圧縮されたドメインからリソースを取り込み、TapLabと呼ばれるシンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T08:13:47Z) - Rethinking Motion Representation: Residual Frames with 3D ConvNets for
Better Action Recognition [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残りのフレームに置き換えることで、トップ1の精度よりも20.5%と12.5%の改善が達成できる。
残余フレームはオブジェクトの外観に関する情報をほとんど含まないため、さらに2次元畳み込みネットワークを用いて外観特徴を抽出する。
論文 参考訳(メタデータ) (2020-01-16T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。