論文の概要: TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression
- arxiv url: http://arxiv.org/abs/2404.02405v2
- Date: Thu, 4 Apr 2024 02:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 11:20:41.940453
- Title: TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression
- Title(参考訳): TE-TAD:時間的協調表現による終端から終端までの時間的行動検出に向けて
- Authors: Ho-Joong Kim, Jung-Ho Hong, Heejo Kong, Seong-Whan Lee,
- Abstract要約: 時間的行動検出(TAD)のためのクエリーベース検出器における手作り部品に依存した正規化座標表現は重要な要素である
時間整合座標式を組み込んだフルエンド・ツー・エンドの時間的動作検出変換器であるモデル名を提案する。
本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。
- 参考スコア(独自算出の注目度): 25.180317527112372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate that the normalized coordinate expression is a key factor as reliance on hand-crafted components in query-based detectors for temporal action detection (TAD). Despite significant advancements towards an end-to-end framework in object detection, query-based detectors have been limited in achieving full end-to-end modeling in TAD. To address this issue, we propose \modelname{}, a full end-to-end temporal action detection transformer that integrates time-aligned coordinate expression. We reformulate coordinate expression utilizing actual timeline values, ensuring length-invariant representations from the extremely diverse video duration environment. Furthermore, our proposed adaptive query selection dynamically adjusts the number of queries based on video length, providing a suitable solution for varying video durations compared to a fixed query set. Our approach not only simplifies the TAD process by eliminating the need for hand-crafted components but also significantly improves the performance of query-based detectors. Our TE-TAD outperforms the previous query-based detectors and achieves competitive performance compared to state-of-the-art methods on popular benchmark datasets. Code is available at: https://github.com/Dotori-HJ/TE-TAD
- Abstract(参考訳): 本稿では,時間的行動検出(TAD)のための問合せ型検出器において,手作り部品に依存した正規化座標式が重要な要素であることを示す。
オブジェクト検出におけるエンドツーエンドフレームワークへの大きな進歩にもかかわらず、クエリベースの検出器は、TADで完全なエンドツーエンドモデリングを実現するために制限されている。
この問題に対処するために、時間に整合した座標式を統合するフルエンド・ツー・エンドの時間的行動検出変換器である \modelname{} を提案する。
我々は、実際のタイムライン値を利用して座標表現を再構成し、非常に多様なビデオ時間環境から長さ不変表現を確実にする。
さらに,提案した適応クエリ選択は,ビデオ長に基づくクエリ数を動的に調整し,固定されたクエリセットと比較して,ビデオ長の変化に対する適切な解決策を提供する。
本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。
我々のTE-TADは、従来のクエリベースの検出器よりも優れており、一般的なベンチマークデータセットの最先端手法と比較して、競合的な性能を実現しています。
コードは、https://github.com/Dotori-HJ/TE-TADで入手できる。
関連論文リスト
- Query matching for spatio-temporal action detection with query-based object detector [0.0]
本稿では,ビデオの時間的一貫性を維持するために,クエリベースのオブジェクト検出モデルであるDETRを拡張する手法を提案する。
提案手法は,各フレームにDETRを適用し,時間情報を組み込むために特徴シフトを用いる。
この問題を解決するために、異なるフレーム間のクエリマッチングを提案し、同じオブジェクトのクエリが一致し、機能シフトに使用されることを保証する。
論文 参考訳(メタデータ) (2024-09-27T02:54:24Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection [8.74967598360817]
MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
論文 参考訳(メタデータ) (2023-03-24T09:32:50Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。