論文の概要: Multiscale Vision Transformers meet Bipartite Matching for efficient
single-stage Action Localization
- arxiv url: http://arxiv.org/abs/2312.17686v1
- Date: Fri, 29 Dec 2023 17:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 08:51:10.005845
- Title: Multiscale Vision Transformers meet Bipartite Matching for efficient
single-stage Action Localization
- Title(参考訳): マルチスケール・ビジョン・トランスフォーマーとバイパート・マッチング
- Authors: Ioanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos
- Abstract要約: アクションローカライゼーションは、検出と認識タスクを組み合わせた難しい問題である。
本稿では,視覚変換器の出力トークンに対して,直線的二部整合損失が適用可能であることを観察する。
これにより、余分なエンコーダ-デコーダヘッドと学習可能なクエリを必要とせずに両方のタスクを実行できるバックボーン+アーキテクチャが実現される。
- 参考スコア(独自算出の注目度): 30.876567854262223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action Localization is a challenging problem that combines detection and
recognition tasks, which are often addressed separately. State-of-the-art
methods rely on off-the-shelf bounding box detections pre-computed at high
resolution and propose transformer models that focus on the classification task
alone. Such two-stage solutions are prohibitive for real-time deployment. On
the other hand, single-stage methods target both tasks by devoting part of the
network (generally the backbone) to sharing the majority of the workload,
compromising performance for speed. These methods build on adding a DETR head
with learnable queries that, after cross- and self-attention can be sent to
corresponding MLPs for detecting a person's bounding box and action. However,
DETR-like architectures are challenging to train and can incur in big
complexity.
In this paper, we observe that a straight bipartite matching loss can be
applied to the output tokens of a vision transformer. This results in a
backbone + MLP architecture that can do both tasks without the need of an extra
encoder-decoder head and learnable queries. We show that a single MViT-S
architecture trained with bipartite matching to perform both tasks surpasses
the same MViT-S when trained with RoI align on pre-computed bounding boxes.
With a careful design of token pooling and the proposed training pipeline, our
MViTv2-S model achieves +3 mAP on AVA2.2. w.r.t. the two-stage counterpart.
Code and models will be released after paper revision.
- Abstract(参考訳): 行動の局所化は、しばしば別々に対処される検出と認識のタスクを組み合わせる難しい問題である。
State-of-the-artメソッドは、高解像度で事前計算された既成の既成境界ボックス検出に依存し、分類タスクのみに焦点を当てたトランスフォーマーモデルを提案する。
このような2段階のソリューションは、リアルタイムデプロイメントでは禁じられている。
一方、シングルステージの手法は、ネットワークの一部(一般的にはバックボーン)を作業負荷の大部分を共有に分割することで、両方のタスクをターゲットとすることで、パフォーマンスを向上する。
これらの手法は、学習可能なクエリでDETRヘッドを追加することで構築され、クロスアテンションとセルフアテンションの後、対応するMLPに送信して、人のバウンディングボックスとアクションを検出する。
しかし、detrのようなアーキテクチャはトレーニングが難しく、大きな複雑さを引き起こす可能性がある。
本稿では,視覚変換器の出力トークンに対して,直線的二部整合損失が適用可能であることを観察する。
これにより、余分なエンコーダ-デコーダヘッドと学習可能なクエリを必要とせずに両方のタスクを実行できるバックボーン+MPPアーキテクチャが実現される。
両タスクを両パートマッチングでトレーニングした単一のMViT-Sアーキテクチャが,RoIで事前計算したバウンディングボックス上でトレーニングした場合,同一のMViT-Sを超えることを示す。
我々のMViTv2-Sモデルはトークンプーリングとトレーニングパイプラインを慎重に設計し、AVA2.2上で+3mAPを達成する。
w.r.t.2ステージ。
コードとモデルはペーパーリビジョン後にリリースされる。
関連論文リスト
- UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths [17.68867710994329]
UniMoDは、各タスクに個別のルータを使用して、どのトークンをプルーニングすべきかを決定するタスク対応トークンプルーニング手法である。
提案手法をShow-oとEmu3に適用し,Show-oでは約15%,Emu3では40%のトレーニングFLOPを削減した。
論文 参考訳(メタデータ) (2025-02-10T13:52:52Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。
以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。
本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2020-10-08T10:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。