Fugu-MT 論文翻訳(概要): Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$ Videos

論文の概要: Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$ Videos

arxiv url: http://arxiv.org/abs/2002.03266v1
Date: Sun, 9 Feb 2020 02:17:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-02 14:45:02.654893
Title: Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$ Videos
Title（参考訳）: 360$^{\circ}$ビデオにおける弱教師付きマルチパーソンアクション認識
Authors: Junnan Li, Jianquan Liu, Yongkang Wong, Shoji Nishimura, Mohan Kankanhalli
Abstract要約: トップビュー360$circ$ビデオにおけるアクション認識の問題に対処する。提案フレームワークは、まず一方向ビデオからパノラマビデオに変換し、その後、地域ベースの3D CNNを用いて時空間の特徴を抽出して行動認識を行う。本稿では,ビデオレベルのアクションラベルのみを教師として使用して,映像中の複数のアクションを認識・ローカライズするようにモデルを訓練する,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。
参考スコア（独自算出の注目度）: 24.4517195084202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent development of commodity 360$^{\circ}$ cameras have enabled a single video to capture an entire scene, which endows promising potentials in surveillance scenarios. However, research in omnidirectional video analysis has lagged behind the hardware advances. In this work, we address the important problem of action recognition in top-view 360$^{\circ}$ videos. Due to the wide filed-of-view, 360$^{\circ}$ videos usually capture multiple people performing actions at the same time. Furthermore, the appearance of people are deformed. The proposed framework first transforms omnidirectional videos into panoramic videos, then it extracts spatial-temporal features using region-based 3D CNNs for action recognition. We propose a weakly-supervised method based on multi-instance multi-label learning, which trains the model to recognize and localize multiple actions in a video using only video-level action labels as supervision. We perform experiments to quantitatively validate the efficacy of the proposed method and qualitatively demonstrate action localization results. To enable research in this direction, we introduce 360Action, the first omnidirectional video dataset for multi-person action recognition.
Abstract（参考訳）: 近年の360$^{\circ}$カメラの開発により、1台のビデオが全シーンを撮影できるようになり、監視シナリオに有望な可能性を秘めている。しかし、全方位ビデオ解析の研究はハードウェアの進歩に遅れを取っている。本研究では,トップビュー360$^{\circ}$ビデオにおけるアクション認識の重要な問題に対処する。 360$^{\circ}$ビデオは通常、複数の人が同時にアクションを実行する様子を撮影する。また、人物の外観も変形している。提案手法は,まず全方位ビデオからパノラマ映像へ変換し,その後,行動認識のための領域ベースの3d cnnを用いて空間的時間的特徴を抽出する。本研究では,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。ビデオレベルのアクションラベルのみを監督としてビデオ内の複数のアクションを認識し,局所化するモデルを訓練する。提案手法の有効性を定量的に検証し,行動局在化結果を定性的に示す実験を行った。この方向の研究を可能にするために,マルチ対人行動認識のための最初の全方位ビデオデータセットである360Actionを導入する。

関連論文リスト

Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos [64.10180665546237]
360degのビデオは、私たちの周囲のより完全な視点を提供する。既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
論文参考訳（メタデータ） (2025-04-10T17:51:38Z)
Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文参考訳（メタデータ） (2024-11-13T16:31:08Z)
Action Selection Learning for Multi-label Multi-view Action Recognition [2.8266810371534152]
本研究は,映像レベルのラベルが弱い広帯域領域を撮影するために,カメラを分散した実世界のシナリオに焦点を当てた。本稿では,多視点行動選択学習法(MultiASL)を提案する。 MM-Officeデータセットを用いた実世界のオフィス環境における実験は,既存手法と比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T10:36:22Z)
Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文参考訳（メタデータ） (2023-09-11T17:58:30Z)
Video-Specific Query-Key Attention Modeling for Weakly-Supervised Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文参考訳（メタデータ） (2023-05-07T04:18:22Z)
ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System [119.51012668709502]
マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
論文参考訳（メタデータ） (2023-04-27T17:59:58Z)
Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文参考訳（メタデータ） (2022-11-24T09:42:46Z)
Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文参考訳（メタデータ） (2022-05-12T06:33:24Z)
E^2TAD: An Energy-Efficient Tracking-based Action Detector [78.90585878925545]
本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。 UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
論文参考訳（メタデータ） (2022-04-09T07:52:11Z)
Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文参考訳（メタデータ） (2022-03-03T18:51:05Z)
A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文参考訳（メタデータ） (2020-12-11T18:54:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。