論文の概要: Actor-agnostic Multi-label Action Recognition with Multi-modal Query
- arxiv url: http://arxiv.org/abs/2307.10763v3
- Date: Wed, 10 Jan 2024 12:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 17:32:00.392803
- Title: Actor-agnostic Multi-label Action Recognition with Multi-modal Query
- Title(参考訳): マルチモーダルクエリを用いたアクタ非依存マルチラベル動作認識
- Authors: Anindya Mondal, Sauradip Nag, Joaquin M Prada, Xiatian Zhu, Anjan
Dutta
- Abstract要約: 既存の行動認識法は通常アクター固有のものである。
これはアクター固有のポーズ推定(例えば人間対動物)を必要とする。
我々は「アクター非依存型マルチモーダルマルチラベル動作認識」という新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 42.38571663534819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing action recognition methods are typically actor-specific due to the
intrinsic topological and apparent differences among the actors. This requires
actor-specific pose estimation (e.g., humans vs. animals), leading to
cumbersome model design complexity and high maintenance costs. Moreover, they
often focus on learning the visual modality alone and single-label
classification whilst neglecting other available information sources (e.g.,
class name text) and the concurrent occurrence of multiple actions. To overcome
these limitations, we propose a new approach called 'actor-agnostic multi-modal
multi-label action recognition,' which offers a unified solution for various
types of actors, including humans and animals. We further formulate a novel
Multi-modal Semantic Query Network (MSQNet) model in a transformer-based object
detection framework (e.g., DETR), characterized by leveraging visual and
textual modalities to represent the action classes better. The elimination of
actor-specific model designs is a key advantage, as it removes the need for
actor pose estimation altogether. Extensive experiments on five publicly
available benchmarks show that our MSQNet consistently outperforms the prior
arts of actor-specific alternatives on human and animal single- and multi-label
action recognition tasks by up to 50%. Code is made available at
https://github.com/mondalanindya/MSQNet.
- Abstract(参考訳): 既存の行動認識法は、内在的なトポロジとアクター間の明らかな差異により、アクター固有のものである。
これはアクター固有のポーズ推定(例えば人間対動物)を必要とし、複雑なモデル設計と高いメンテナンスコストをもたらす。
さらに、他の利用可能な情報ソース(クラス名テキストなど)や複数のアクションの同時発生を無視しながら、視覚的モダリティのみと単一ラベルの分類を学ぶことに注力することが多い。
これらの制約を克服するために,人間や動物を含む様々な種類の俳優に統一されたソリューションを提供する「アクター非依存マルチモード動作認識」という新しい手法を提案する。
さらに,多モードセマンティッククエリーネットワーク(MSQNet)モデルをトランスフォーマーベースのオブジェクト検出フレームワーク(DETRなど)で定式化し,視覚的およびテキスト的モダリティを活用して,アクションクラスをより良く表現する。
アクター固有のモデルデザインの排除は重要な利点であり、アクターのポーズ推定の必要性を完全に排除する。
5つの公開ベンチマークの大規模な実験によると、我々のMSQNetは、人間と動物のシングルラベルとマルチラベルのアクション認識タスクにおいて、アクター固有の代替手段の先行技術を最大50%上回っている。
コードはhttps://github.com/mondalanindya/MSQNetで公開されている。
関連論文リスト
- DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting [22.86745487695168]
マルチインスタンスとマルチラベル学習に基づくベースラインを提案します。
本稿では,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-01-21T11:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。