論文の概要: PointTAD: Multi-Label Temporal Action Detection with Learnable Query
Points
- arxiv url: http://arxiv.org/abs/2210.11035v2
- Date: Sat, 22 Oct 2022 04:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:12:12.443060
- Title: PointTAD: Multi-Label Temporal Action Detection with Learnable Query
Points
- Title(参考訳): PointTAD: 学習可能なクエリポイントを用いた複数ラベル時間行動検出
- Authors: Jing Tan, Xiaotong Zhao, Xintian Shi, Bin Kang, Limin Wang
- Abstract要約: 時間的アクション検出(TAD)は通常、単一のラベルから少数のアクションインスタンスを持つ未トリミングビデオを処理する。
本稿では,マルチラベル・アントリム映像からすべてのアクション・インスタンスをローカライズすることを目的とした,マルチラベル・テンポラル・アクション検出の課題に焦点をあてる。
本稿では,従来のTADからスパースクエリに基づく検出パラダイムを拡張し,PointTADのマルチラベルTADフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.607690605262878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional temporal action detection (TAD) usually handles untrimmed videos
with small number of action instances from a single label (e.g., ActivityNet,
THUMOS). However, this setting might be unrealistic as different classes of
actions often co-occur in practice. In this paper, we focus on the task of
multi-label temporal action detection that aims to localize all action
instances from a multi-label untrimmed video. Multi-label TAD is more
challenging as it requires for fine-grained class discrimination within a
single video and precise localization of the co-occurring instances. To
mitigate this issue, we extend the sparse query-based detection paradigm from
the traditional TAD and propose the multi-label TAD framework of PointTAD.
Specifically, our PointTAD introduces a small set of learnable query points to
represent the important frames of each action instance. This point-based
representation provides a flexible mechanism to localize the discriminative
frames at boundaries and as well the important frames inside the action.
Moreover, we perform the action decoding process with the Multi-level
Interactive Module to capture both point-level and instance-level action
semantics. Finally, our PointTAD employs an end-to-end trainable framework
simply based on RGB input for easy deployment. We evaluate our proposed method
on two popular benchmarks and introduce the new metric of detection-mAP for
multi-label TAD. Our model outperforms all previous methods by a large margin
under the detection-mAP metric, and also achieves promising results under the
segmentation-mAP metric. Code is available at
https://github.com/MCG-NJU/PointTAD.
- Abstract(参考訳): 伝統的な時間的アクション検出(TAD)は、通常、単一のラベル(ActivityNet、THUMOSなど)から少数のアクションインスタンスを持つ、トリミングされていないビデオを扱う。
しかし、この設定は、アクションの異なるクラスが実際に共起することが多いため、非現実的かもしれない。
本稿では,マルチラベルの非トリミングビデオからすべてのアクションインスタンスをローカライズすることを目的とした,マルチラベルの時間的動作検出のタスクに焦点を当てる。
マルチラベルTADは、単一のビデオ内のきめ細かいクラス識別と、共起インスタンスの正確なローカライゼーションを必要とするため、より難しい。
この問題を軽減するため,我々はsparse query-based detectionパラダイムを従来のtadから拡張し,pointtadのマルチラベルtadフレームワークを提案する。
具体的には、各アクションインスタンスの重要なフレームを表すために、学習可能なクエリポイントの小さなセットを導入しています。
このポイントベースの表現は、境界での識別フレームとアクション内の重要なフレームをローカライズするための柔軟なメカニズムを提供する。
さらに,マルチレベルインタラクティブモジュールを用いてアクションデコード処理を行い,ポイントレベルとインスタンスレベルのアクションセマンティクスの両方をキャプチャする。
最後に、PointTADでは、RGB入力をベースとしたエンドツーエンドのトレーニング可能なフレームワークを採用しています。
提案手法を2つの一般的なベンチマークで評価し,マルチラベルTADにおける検出-mAPの新たな指標を提案する。
本モデルでは, 検出-mAP測定値において, 従来手法よりも大きな差があり, セグメンテーション-mAP測定値では有望な結果が得られる。
コードはhttps://github.com/MCG-NJU/PointTADで入手できる。
関連論文リスト
- Dual DETRs for Multi-Label Temporal Action Detection [46.05173000284639]
時間的行動検出(TAD)は、ビデオ内のアクション境界と対応するカテゴリを特定することを目的としている。
我々は、インスタンスレベルとバウンダリレベルの両方からのアクションを検出するために、新しいDualレベルクエリベースのTADフレームワーク、すなわちDualDETRを提案する。
我々はDualDETRを3つの挑戦的マルチラベルTADベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-31T11:43:39Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Temporal Action Detection with Global Segmentation Mask Learning [134.26292288193298]
既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。
我々は,グローバルマスク(TAGS)を用いた提案不要な時間行動検出モデルを提案する。
私たちの中核となる考え方は、アクションインスタンスのグローバルセグメンテーションマスクをフルビデオ長で共同で学習することです。
論文 参考訳(メタデータ) (2022-07-14T00:46:51Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting [22.86745487695168]
マルチインスタンスとマルチラベル学習に基づくベースラインを提案します。
本稿では,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-01-21T11:59:47Z) - Few-shot 3D Point Cloud Semantic Segmentation [138.80825169240302]
本稿では,新しい注意型マルチプロトタイプトランスダクティブ・ショットポイント・クラウドセマンティックセマンティック・セマンティクス法を提案する。
提案手法は,雲のセマンティックセマンティックセグメンテーション設定の違いによるベースラインに比べて,顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2020-06-22T08:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。