論文の概要: Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$
Videos
- arxiv url: http://arxiv.org/abs/2002.03266v1
- Date: Sun, 9 Feb 2020 02:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 14:45:02.654893
- Title: Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$
Videos
- Title(参考訳): 360$^{\circ}$ビデオにおける弱教師付きマルチパーソンアクション認識
- Authors: Junnan Li, Jianquan Liu, Yongkang Wong, Shoji Nishimura, Mohan
Kankanhalli
- Abstract要約: トップビュー360$circ$ビデオにおけるアクション認識の問題に対処する。
提案フレームワークは、まず一方向ビデオからパノラマビデオに変換し、その後、地域ベースの3D CNNを用いて時空間の特徴を抽出して行動認識を行う。
本稿では,ビデオレベルのアクションラベルのみを教師として使用して,映像中の複数のアクションを認識・ローカライズするようにモデルを訓練する,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。
- 参考スコア(独自算出の注目度): 24.4517195084202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent development of commodity 360$^{\circ}$ cameras have enabled a
single video to capture an entire scene, which endows promising potentials in
surveillance scenarios. However, research in omnidirectional video analysis has
lagged behind the hardware advances. In this work, we address the important
problem of action recognition in top-view 360$^{\circ}$ videos. Due to the wide
filed-of-view, 360$^{\circ}$ videos usually capture multiple people performing
actions at the same time. Furthermore, the appearance of people are deformed.
The proposed framework first transforms omnidirectional videos into panoramic
videos, then it extracts spatial-temporal features using region-based 3D CNNs
for action recognition. We propose a weakly-supervised method based on
multi-instance multi-label learning, which trains the model to recognize and
localize multiple actions in a video using only video-level action labels as
supervision. We perform experiments to quantitatively validate the efficacy of
the proposed method and qualitatively demonstrate action localization results.
To enable research in this direction, we introduce 360Action, the first
omnidirectional video dataset for multi-person action recognition.
- Abstract(参考訳): 近年の360$^{\circ}$カメラの開発により、1台のビデオが全シーンを撮影できるようになり、監視シナリオに有望な可能性を秘めている。
しかし、全方位ビデオ解析の研究はハードウェアの進歩に遅れを取っている。
本研究では,トップビュー360$^{\circ}$ビデオにおけるアクション認識の重要な問題に対処する。
360$^{\circ}$ビデオは通常、複数の人が同時にアクションを実行する様子を撮影する。
また、人物の外観も変形している。
提案手法は,まず全方位ビデオからパノラマ映像へ変換し,その後,行動認識のための領域ベースの3d cnnを用いて空間的時間的特徴を抽出する。
本研究では,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。ビデオレベルのアクションラベルのみを監督としてビデオ内の複数のアクションを認識し,局所化するモデルを訓練する。
提案手法の有効性を定量的に検証し,行動局在化結果を定性的に示す実験を行った。
この方向の研究を可能にするために,マルチ対人行動認識のための最初の全方位ビデオデータセットである360Actionを導入する。
関連論文リスト
- Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System [119.51012668709502]
マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。
本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。
検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - People Tracking in Panoramic Video for Guiding Robots [2.092922495279074]
ガイドロボットは、おそらく未知の環境の特定の場所への移動を効果的に行うことを目的としている。
この操作の間、ロボットは、付随する人物を検出し、追跡し、彼女/彼の姿を見失おうとはしない。
360deg Field of View (FoV)は、あらゆるフレームオブジェクトがセンサーから外されたり、遠く離れていなければ、FoVを離れることができないことを保証します。
我々は、視線カメラ用に設計された標準的な人検出・追跡パイプラインであるパノラマビデオに効果的に適応できる一連の手法を提案する。
論文 参考訳(メタデータ) (2022-06-06T16:44:38Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - E^2TAD: An Energy-Efficient Tracking-based Action Detector [78.90585878925545]
本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。
UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
論文 参考訳(メタデータ) (2022-04-09T07:52:11Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。