論文の概要: DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer
- arxiv url: http://arxiv.org/abs/2505.05711v1
- Date: Fri, 09 May 2025 01:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.117981
- Title: DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer
- Title(参考訳): DiGIT:テンポラルアクション検出変換器用多次元ゲート型エンコーダと中央隣接領域統合デコーダ
- Authors: Ho-Joong Kim, Yearang Lee, Jung-Ho Hong, Seong-Whan Lee,
- Abstract要約: 時間的動作検出のためのクエリベースの検出器の鍵となる制限は、もともと設計されたアーキテクチャのオブジェクト検出への直接適応から生じる。
時間的動作検出変換器(DiGIT)のための多次元ゲートエンコーダと中央隣接領域統合デコーダを提案する。
提案手法では,マルチスケールの変形可能なアテンションとフィードフォワードネットワークからなる既存のエンコーダを,マルチディイルゲートエンコーダに置き換える。
- 参考スコア(独自算出の注目度): 25.180317527112372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we examine a key limitation in query-based detectors for temporal action detection (TAD), which arises from their direct adaptation of originally designed architectures for object detection. Despite the effectiveness of the existing models, they struggle to fully address the unique challenges of TAD, such as the redundancy in multi-scale features and the limited ability to capture sufficient temporal context. To address these issues, we propose a multi-dilated gated encoder and central-adjacent region integrated decoder for temporal action detection transformer (DiGIT). Our approach replaces the existing encoder that consists of multi-scale deformable attention and feedforward network with our multi-dilated gated encoder. Our proposed encoder reduces the redundant information caused by multi-level features while maintaining the ability to capture fine-grained and long-range temporal information. Furthermore, we introduce a central-adjacent region integrated decoder that leverages a more comprehensive sampling strategy for deformable cross-attention to capture the essential information. Extensive experiments demonstrate that DiGIT achieves state-of-the-art performance on THUMOS14, ActivityNet v1.3, and HACS-Segment. Code is available at: https://github.com/Dotori-HJ/DiGIT
- Abstract(参考訳): 本稿では、時間的行動検出(TAD)のためのクエリベースの検出において、本来設計されていたオブジェクト検出アーキテクチャの直接適応から生じる重要な制限について検討する。
既存のモデルの有効性にもかかわらず、マルチスケール機能の冗長性や十分な時間的コンテキストを捉える能力の制限など、DADの独特な課題を完全に解決するのに苦労している。
これらの問題に対処するために、時間的行動検出変換器(DiGIT)のための多次元ゲートエンコーダと中央隣接領域統合デコーダを提案する。
提案手法では,マルチスケールの変形可能なアテンションとフィードフォワードネットワークで構成される既存のエンコーダを,マルチディイルゲートエンコーダに置き換える。
提案するエンコーダは,細粒度・長距離の時間情報を捕捉する能力を維持しつつ,マルチレベル特徴による冗長な情報を削減する。
さらに、変形可能なクロスアテンションのためのより包括的なサンプリング戦略を利用して、本質的な情報をキャプチャする集中型領域統合デコーダを導入する。
DiGITはTHUMOS14、ActivityNet v1.3、HACS-Segmentで最先端のパフォーマンスを達成した。
コードは、https://github.com/Dotori-HJ/DiGITで入手できる。
関連論文リスト
- Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition [82.88856416080331]
オンライン手書き文字認識(OLHTR)は様々な用途で注目されている。
現在のアプローチは通常、OLHTRをシーケンス認識タスクとして扱い、単一のトラジェクトリまたはイメージエンコーダまたはマルチストリームエンコーダを使用する。
単ストリーム推論プロセスを維持しながら、トレーニング中にマルチモーダルな特徴を学習するコラボレーティブ学習ベースのOLHTRフレームワークCol-OLHTRを提案する。
論文 参考訳(メタデータ) (2025-02-10T02:12:24Z) - EMDFNet: Efficient Multi-scale and Diverse Feature Network for Traffic Sign Detection [11.525603303355268]
小さな物体、特に交通標識の検出は、物体の検出と自律運転において重要なサブタスクである。
これらの課題に乗じて,EMDFNet(Efficient Multi-scale and Diverse Feature Network)という新しいオブジェクト検出ネットワークを提案する。
EMDFNetはAugmented Shortcut ModuleとEfficient Hybridを統合し、上記の問題に同時に対処する。
論文 参考訳(メタデータ) (2024-08-26T11:26:27Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer [12.544216587327387]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:50:19Z) - Pedestrian Spatio-Temporal Information Fusion For Video Anomaly
Detection [1.5736899098702974]
歩行者の情報を統合するために, 異常検出手法を提案する。
出力フレームと真値との差に応じて異常検出を行う。
The experimental results on the CUHK Avenue and ShanghaiTech datasets shows that the proposed method is superior than the current mainstream video anomaly detection method。
論文 参考訳(メタデータ) (2022-11-18T06:41:02Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。