論文の概要: Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization
- arxiv url: http://arxiv.org/abs/2312.17686v2
- Date: Thu, 23 May 2024 15:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 11:46:15.499329
- Title: Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization
- Title(参考訳): マルチスケール・ビジョン・トランスフォーマーが2部マッチングに到達して効率的なワンステージアクション・ローカライゼーション
- Authors: Ioanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos,
- Abstract要約: アクションローカライゼーションは、しばしば別々に対処される検出タスクと認識タスクを組み合わせた、困難な問題である。
両タスクを両パートマッチングでトレーニングした単一のMViTv2-Sアーキテクチャが,RoIで事前計算した有界ボックス上でトレーニングした場合,同一のMViTv2-Sを超えることを示す。
- 参考スコア(独自算出の注目度): 27.472705540825316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action Localization is a challenging problem that combines detection and recognition tasks, which are often addressed separately. State-of-the-art methods rely on off-the-shelf bounding box detections pre-computed at high resolution, and propose transformer models that focus on the classification task alone. Such two-stage solutions are prohibitive for real-time deployment. On the other hand, single-stage methods target both tasks by devoting part of the network (generally the backbone) to sharing the majority of the workload, compromising performance for speed. These methods build on adding a DETR head with learnable queries that after cross- and self-attention can be sent to corresponding MLPs for detecting a person's bounding box and action. However, DETR-like architectures are challenging to train and can incur in big complexity. In this paper, we observe that \textbf{a straight bipartite matching loss can be applied to the output tokens of a vision transformer}. This results in a backbone + MLP architecture that can do both tasks without the need of an extra encoder-decoder head and learnable queries. We show that a single MViTv2-S architecture trained with bipartite matching to perform both tasks surpasses the same MViTv2-S when trained with RoI align on pre-computed bounding boxes. With a careful design of token pooling and the proposed training pipeline, our Bipartite-Matching Vision Transformer model, \textbf{BMViT}, achieves +3 mAP on AVA2.2. w.r.t. the two-stage MViTv2-S counterpart. Code is available at \href{https://github.com/IoannaNti/BMViT}{https://github.com/IoannaNti/BMViT}
- Abstract(参考訳): アクションローカライゼーション(Action Localization)は、検出タスクと認識タスクを組み合わせた困難な問題である。
State-of-the-artメソッドは、高解像度で事前計算された既成の既成境界ボックス検出に依存し、分類タスクのみに焦点を当てたトランスフォーマーモデルを提案する。
このような2段階のソリューションは、リアルタイムデプロイメントでは禁じられている。
一方、シングルステージの手法は、ネットワークの一部(一般的にはバックボーン)を作業負荷の大部分を共有に分割することで、両方のタスクをターゲットとすることで、パフォーマンスを向上する。
これらの方法は、学習可能なクエリでDETRヘッドを追加することで構築され、クロスアテンションとセルフアテンションの後、対応するMLPに送信して、人のバウンディングボックスとアクションを検出する。
しかし、DETRのようなアーキテクチャはトレーニングが困難であり、大きな複雑さを引き起こす可能性がある。
本稿では, 視覚変換器の出力トークンに対して, 直列二部整合損失が適用可能であることを観察する。
これにより、余分なエンコーダ-デコーダヘッドと学習可能なクエリを必要とせずに両方のタスクを実行できるバックボーン+MPPアーキテクチャが実現される。
両タスクを両パートマッチングでトレーニングした単一のMViTv2-Sアーキテクチャが,RoIで事前計算した有界ボックス上でトレーニングした場合,同一のMViTv2-Sを超えることを示す。
トークンプーリングとトレーニングパイプラインの注意深い設計により、当社のBipartite-Matching Vision Transformerモデルである \textbf{BMViT} は、AVA2.2上で +3 mAP を達成する。
2段式MViTv2-S。
コードは \href{https://github.com/IoannaNti/BMViT}{https://github.com/IoannaNti/BMViT} で公開されている。
関連論文リスト
- Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。
以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。
本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2020-10-08T10:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。