論文の概要: Dual DETRs for Multi-Label Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2404.00653v1
- Date: Sun, 31 Mar 2024 11:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:30:41.717837
- Title: Dual DETRs for Multi-Label Temporal Action Detection
- Title(参考訳): マルチラベル時効検出のためのデュアルDETR
- Authors: Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, Limin Wang,
- Abstract要約: 時間的行動検出(TAD)は、ビデオ内のアクション境界と対応するカテゴリを特定することを目的としている。
我々は、インスタンスレベルとバウンダリレベルの両方からのアクションを検出するために、新しいDualレベルクエリベースのTADフレームワーク、すなわちDualDETRを提案する。
我々はDualDETRを3つの挑戦的マルチラベルTADベンチマークで評価した。
- 参考スコア(独自算出の注目度): 46.05173000284639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Detection (TAD) aims to identify the action boundaries and the corresponding category within untrimmed videos. Inspired by the success of DETR in object detection, several methods have adapted the query-based framework to the TAD task. However, these approaches primarily followed DETR to predict actions at the instance level (i.e., identify each action by its center point), leading to sub-optimal boundary localization. To address this issue, we propose a new Dual-level query-based TAD framework, namely DualDETR, to detect actions from both instance-level and boundary-level. Decoding at different levels requires semantics of different granularity, therefore we introduce a two-branch decoding structure. This structure builds distinctive decoding processes for different levels, facilitating explicit capture of temporal cues and semantics at each level. On top of the two-branch design, we present a joint query initialization strategy to align queries from both levels. Specifically, we leverage encoder proposals to match queries from each level in a one-to-one manner. Then, the matched queries are initialized using position and content prior from the matched action proposal. The aligned dual-level queries can refine the matched proposal with complementary cues during subsequent decoding. We evaluate DualDETR on three challenging multi-label TAD benchmarks. The experimental results demonstrate the superior performance of DualDETR to the existing state-of-the-art methods, achieving a substantial improvement under det-mAP and delivering impressive results under seg-mAP.
- Abstract(参考訳): 時間的行動検出(TAD)は、ビデオ内のアクション境界と対応するカテゴリを特定することを目的としている。
オブジェクト検出におけるDETRの成功にインスパイアされたいくつかのメソッドは、クエリベースのフレームワークをTADタスクに適応させた。
しかしながら、これらのアプローチは、主にDETRに従ってインスタンスレベルでのアクションを予測する(つまり、各アクションをその中心点で特定する)。
この問題に対処するために、インスタンスレベルとバウンダリレベルの両方からアクションを検出するために、新しいDualレベルクエリベースのTADフレームワーク、すなわちDualDETRを提案する。
異なるレベルでのデコーディングには、異なる粒度のセマンティクスを必要とするため、2分岐のデコーディング構造を導入する。
この構造は、異なるレベルで独自のデコードプロセスを構築し、各レベルで時間的手がかりと意味を明示的にキャプチャするのに役立つ。
2ブランチの設計の上に、両レベルのクエリをアライメントするための共同クエリ初期化戦略を提案する。
具体的には,エンコーダの提案を利用して,各レベルのクエリを1対1でマッチングする。
そして、一致したアクション提案より前の位置と内容を用いて一致したクエリを初期化する。
整列されたデュアルレベルクエリは、後続の復号中に補完的なキューでマッチングされた提案を洗練することができる。
我々はDualDETRを3つの挑戦的マルチラベルTADベンチマークで評価した。
The experimental results showed the superior performance of DualDETR to the existing State-of-the-art method, achieved a significant improvement under det-mAP and deliver great results under seg-mAP。
関連論文リスト
- HM-Conformer: A Conformer-based audio deepfake detection system with
hierarchical pooling and multi-level classification token aggregation methods [34.83806360076228]
HM-Conformerはシーケンス対シーケンスタスク用に設計されている。
様々なシーケンス長を処理し、それらを集約することで、スプーフィングエビデンスを効率的に検出することができる。
実験の結果、HM-Conformerは15.71%のEERを達成した。
論文 参考訳(メタデータ) (2023-09-15T07:18:30Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - PointTAD: Multi-Label Temporal Action Detection with Learnable Query
Points [28.607690605262878]
時間的アクション検出(TAD)は通常、単一のラベルから少数のアクションインスタンスを持つ未トリミングビデオを処理する。
本稿では,マルチラベル・アントリム映像からすべてのアクション・インスタンスをローカライズすることを目的とした,マルチラベル・テンポラル・アクション検出の課題に焦点をあてる。
本稿では,従来のTADからスパースクエリに基づく検出パラダイムを拡張し,PointTADのマルチラベルTADフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:08:03Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language
Matching [75.71523183166799]
マルチモーダル入力をマッチングするための一般的なフレームワークは、2段階のプロセスに基づいている。
これらの手法は、2つの段階における提案の役割間の明らかな不一致を見落としていると論じる。
今回提案するVL-NMSは、問い合わせ対応の提案を第一段階に行う最初の手法です。
論文 参考訳(メタデータ) (2021-05-12T13:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。