論文の概要: MVAFormer: RGB-based Multi-View Spatio-Temporal Action Recognition with Transformer
- arxiv url: http://arxiv.org/abs/2511.02473v1
- Date: Tue, 04 Nov 2025 10:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.962327
- Title: MVAFormer: RGB-based Multi-View Spatio-Temporal Action Recognition with Transformer
- Title(参考訳): MVAFormer:変換器を用いたRGB型マルチビュー時空間行動認識
- Authors: Taiga Yamane, Satoshi Suzuki, Ryo Masumura, Shotaro Tora,
- Abstract要約: マルチビューアクション認識は、複数のカメラビューを使用して人間の行動を認識することを目的としている。
これまでの研究では、パフォーマンス向上のための有望な協力方法が検討されてきた。
本稿では,MVAFormerと呼ばれるSTAR設定のための多視点動作認識手法を提案する。
- 参考スコア(独自算出の注目度): 15.749459698197947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view action recognition aims to recognize human actions using multiple camera views and deals with occlusion caused by obstacles or crowds. In this task, cooperation among views, which generates a joint representation by combining multiple views, is vital. Previous studies have explored promising cooperation methods for improving performance. However, since their methods focus only on the task setting of recognizing a single action from an entire video, they are not applicable to the recently popular spatio-temporal action recognition~(STAR) setting, in which each person's action is recognized sequentially. To address this problem, this paper proposes a multi-view action recognition method for the STAR setting, called MVAFormer. In MVAFormer, we introduce a novel transformer-based cooperation module among views. In contrast to previous studies, which utilize embedding vectors with lost spatial information, our module utilizes the feature map for effective cooperation in the STAR setting, which preserves the spatial information. Furthermore, in our module, we divide the self-attention for the same and different views to model the relationship between multiple views effectively. The results of experiments using a newly collected dataset demonstrate that MVAFormer outperforms the comparison baselines by approximately $4.4$ points on the F-measure.
- Abstract(参考訳): マルチビューアクション認識は、複数のカメラビューを使用して人間の行動を認識することを目的としており、障害物や群衆によって引き起こされる閉塞を扱う。
この課題では、複数のビューを組み合わせることで共同表現を生成するビュー間の協調が不可欠である。
これまでの研究では、パフォーマンス向上のための有望な協力方法が検討されてきた。
しかし,ビデオ全体から1つのアクションを認識するタスク設定のみに焦点が当てられているため,近年普及している時空間的行動認識(STAR)設定には適用できない。
そこで本研究では,MVAFormerと呼ばれるSTAR設定のための多視点動作認識手法を提案する。
MVAFormerでは、ビュー間で新しいトランスフォーマーベースの協調モジュールを導入する。
空間情報が失われる埋め込みベクトルを利用する従来の研究とは対照的に,本モジュールでは,空間情報を保存するSTAR設定において,特徴マップを用いて効果的な協調を行う。
さらに,本モジュールでは,複数のビュー間の関係を効果的にモデル化するために,同じビューと異なるビューに対する自己意識を分割する。
新たに収集されたデータセットを用いた実験の結果、MVAFormerはF尺度で比較基準を約4.4ドルポイント上回る結果となった。
関連論文リスト
- MAVR-Net: Robust Multi-View Learning for MAV Action Recognition with Cross-View Attention [0.5156484100374058]
本稿では,マルチビュー学習に基づく行動認識フレームワークMAVR-Netを提案する。
従来の単一ビュー方式とは異なり、提案手法は生フレーム、光フロー、RGBセグメンテーションマスクを含む3種類の補完的なデータを組み合わせている。
具体的には、ResNetベースのエンコーダを用いて各ビューから異種特徴を抽出し、MAV動作パターンの詳細を保存するためにマルチスケールの特徴ピラミッドを採用する。
論文 参考訳(メタデータ) (2025-10-17T09:04:51Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - Human-to-Human Interaction Detection [3.00604614803979]
ヒューマン・ツー・ヒューマン・インタラクション検出(HID)という新しいタスクを導入する。
HIDは、被験者の検出、個人的行動の認識、対話的な関係に応じたグループ化に、1つのモデルで取り組みます。
まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、AVA-Interaction(AVA-I)と呼ばれる新しいHIDベンチマークを確立する。
論文 参考訳(メタデータ) (2023-07-02T03:24:58Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。
動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文 参考訳(メタデータ) (2021-04-01T17:44:34Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。