論文の概要: Self-Feedback DETR for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2308.10570v1
- Date: Mon, 21 Aug 2023 09:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:18:59.720865
- Title: Self-Feedback DETR for Temporal Action Detection
- Title(参考訳): 時間的動作検出のための自己フィードバックdetr
- Authors: Jihwan Kim, Miso Lee, Jae-Pil Heo
- Abstract要約: 時間的行動検出(TAD)は、現実の動画アプリケーションには難しいが、基本である。
注意モジュールは時間的崩壊問題と呼ばれるいくつかの重要な要素に焦点を当てている。
本稿では,デコーダのクロスアテンションマップを用いて自己アテンションモジュールを再活性化する新たなフレームワークであるSelf-DETRを提案する。
- 参考スコア(独自算出の注目度): 23.786329136824705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Detection (TAD) is challenging but fundamental for real-world
video applications. Recently, DETR-based models have been devised for TAD but
have not performed well yet. In this paper, we point out the problem in the
self-attention of DETR for TAD; the attention modules focus on a few key
elements, called temporal collapse problem. It degrades the capability of the
encoder and decoder since their self-attention modules play no role. To solve
the problem, we propose a novel framework, Self-DETR, which utilizes
cross-attention maps of the decoder to reactivate self-attention modules. We
recover the relationship between encoder features by simple matrix
multiplication of the cross-attention map and its transpose. Likewise, we also
get the information within decoder queries. By guiding collapsed self-attention
maps with the guidance map calculated, we settle down the temporal collapse of
self-attention modules in the encoder and decoder. Our extensive experiments
demonstrate that Self-DETR resolves the temporal collapse problem by keeping
high diversity of attention over all layers.
- Abstract(参考訳): 時間的動作検出(tad)は難しいが、実世界のビデオアプリケーションでは基本である。
近年、DETRベースのモデルはTAD向けに開発されたが、まだうまく機能していない。
本稿では,tadに対するdetrの自己対応における問題点を指摘する。注意モジュールは時間的崩壊問題と呼ばれるいくつかの重要な要素に焦点を当てている。
自己アテンションモジュールが役割を果たさないため、エンコーダとデコーダの能力が低下する。
そこで本研究では,デコーダのクロスアテンションマップを用いて自己アテンションモジュールを再活性化する新たなフレームワークであるSelf-DETRを提案する。
そこで我々は,クロスアテンションマップの単純な行列乗算によるエンコーダ特徴の関係を復元する。
同様に、デコーダクエリ内の情報も取得します。
計算した自己注意マップを導出することにより,エンコーダとデコーダの自己注意モジュールの時間的崩壊を解消する。
広範な実験により,全層にわたって高い注目度を維持することにより,自己破壊が時間的崩壊問題を解決することを実証した。
関連論文リスト
- The Conformer Encoder May Reverse the Time Dimension [53.9351497436903]
我々はデコーダのクロスアテンション機構の初期動作を分析し、コンバータエンコーダの自己アテンションが初期フレームと他のすべての情報フレームとの接続を構築することを奨励することを発見した。
本稿では,このフリップを回避する方法とアイデアを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:39:05Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Excavating RoI Attention for Underwater Object Detection [0.0]
自己注意はコンピュータビジョンで人気があり、ピクセルレベルの注意とパッチレベルの注意に分類される。
オブジェクト検出では、RoI機能は基本機能マップからのパッチとして見ることができる。
本稿では,RoI機能にアテンションモジュールを適用して性能を向上させることを目的とする。
論文 参考訳(メタデータ) (2022-06-24T07:45:26Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips [39.29955809641396]
ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。
本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:02:35Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。