論文の概要: Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection
- arxiv url: http://arxiv.org/abs/2411.10922v1
- Date: Sun, 17 Nov 2024 00:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:20.862776
- Title: Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection
- Title(参考訳): オープンボキャブラリ動作検出のためのVLMローカライズビリティとセマンティックス
- Authors: Wentao Bao, Kai Li, Yuxiao Chen, Deep Patel, Martin Renqiang Min, Yu Kong,
- Abstract要約: アクション検出は、ビデオの中で空間的および時間的に人間の行動を検出し(認識し、局所化する)ことを目的としている。
既存のアプローチでは、アクション検知器を訓練し、一定のアクションカテゴリのビデオでテストするクローズドセットの設定に重点を置いている。
本稿では,大規模視覚言語モデルの固有意味とローカライズ性を利用したOpenMixerを提案する。
- 参考スコア(独自算出の注目度): 32.843848754881364
- License:
- Abstract: Action detection aims to detect (recognize and localize) human actions spatially and temporally in videos. Existing approaches focus on the closed-set setting where an action detector is trained and tested on videos from a fixed set of action categories. However, this constrained setting is not viable in an open world where test videos inevitably come beyond the trained action categories. In this paper, we address the practical yet challenging Open-Vocabulary Action Detection (OVAD) problem. It aims to detect any action in test videos while training a model on a fixed set of action categories. To achieve such an open-vocabulary capability, we propose a novel method OpenMixer that exploits the inherent semantics and localizability of large vision-language models (VLM) within the family of query-based detection transformers (DETR). Specifically, the OpenMixer is developed by spatial and temporal OpenMixer blocks (S-OMB and T-OMB), and a dynamically fused alignment (DFA) module. The three components collectively enjoy the merits of strong generalization from pre-trained VLMs and end-to-end learning from DETR design. Moreover, we established OVAD benchmarks under various settings, and the experimental results show that the OpenMixer performs the best over baselines for detecting seen and unseen actions. We release the codes, models, and dataset splits at https://github.com/Cogito2012/OpenMixer.
- Abstract(参考訳): アクション検出は、ビデオの中で空間的および時間的に人間の行動を検出し(認識し、局所化する)ことを目的としている。
既存のアプローチでは、アクション検知器を訓練し、一定のアクションカテゴリのビデオでテストするクローズドセットの設定に重点を置いている。
しかし、テストビデオが必然的に訓練されたアクションカテゴリを超えたオープンな世界では、この制約のある設定は実現できない。
本稿では,OVAD(Open-Vocabulary Action Detection)問題に対処する。
一定のアクションカテゴリのモデルをトレーニングしながら、テストビデオ内の任意のアクションを検出することを目的としている。
このようなオープン語彙を実現するために,クエリベースの検出変換器(DETR)のファミリー内において,大規模視覚言語モデル(VLM)固有の意味とローカライズ性を利用する新しい手法であるOpenMixerを提案する。
特に、OpenMixerは空間的および時間的OpenMixerブロック(S-OMBとT-OMB)と動的融合アライメント(DFA)モジュールによって開発されている。
これら3つのコンポーネントは、事前訓練されたVLMによる強力な一般化と、DETR設計によるエンドツーエンド学習のメリットを総合的に享受する。
さらに,様々な条件下でOVADベンチマークを構築し,実験結果から,OpenMixerが目に見える動作や目に見えない動作を検出するための最良オーバーベースラインを実行していることが示された。
コード、モデル、データセットの分割はhttps://github.com/Cogito2012/OpenMixer.comで公開しています。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - STMixer: A One-Stage Sparse Action Detector [48.0614066856134]
我々はSTMixerと呼ばれる新しいワンステージアクション検出器を提案する。
我々は,STMixerに識別ビデオ機能セットをマイニングする柔軟性を付与する,クエリベースの適応型特徴サンプリングモジュールを提案する。
AVA, UCF101-24, JHMDB のデータセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-03-28T10:47:06Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Evidential Deep Learning for Open Set Action Recognition [36.350348194248014]
本研究では,行動認識問題を顕在的深層学習(EDL)の観点から定式化する。
コントラスト学習により学習した表現を劣化させるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2021-07-21T15:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。