論文の概要: Prediction-Feedback DETR for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2408.16729v2
- Date: Mon, 9 Sep 2024 16:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 23:12:22.470881
- Title: Prediction-Feedback DETR for Temporal Action Detection
- Title(参考訳): 時間的行動検出のための予測フィードバックDETR
- Authors: Jihwan Kim, Miso Lee, Cheol-Ho Cho, Jihyun Lee, Jae-Pil Heo,
- Abstract要約: 時間的行動検出(TAD)は、現実世界の動画アプリケーションでは基本的だが困難である。
近年,自己注意時の注意崩壊がDADに対するDETRの性能低下を引き起こすことが確認されている。
本稿では, 崩壊を回復し, クロスアテンション, セルフアテンションを予測と整合させる新しいフレームワーク, Prediction-Feedback DETR (Pred-DETR)を提案する。
- 参考スコア(独自算出の注目度): 30.247560766324526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Detection (TAD) is fundamental yet challenging for real-world video applications. Leveraging the unique benefits of transformers, various DETR-based approaches have been adopted in TAD. However, it has recently been identified that the attention collapse in self-attention causes the performance degradation of DETR for TAD. Building upon previous research, this paper newly addresses the attention collapse problem in cross-attention within DETR-based TAD methods. Moreover, our findings reveal that cross-attention exhibits patterns distinct from predictions, indicating a short-cut phenomenon. To resolve this, we propose a new framework, Prediction-Feedback DETR (Pred-DETR), which utilizes predictions to restore the collapse and align the cross- and self-attention with predictions. Specifically, we devise novel prediction-feedback objectives using guidance from the relations of the predictions. As a result, Pred-DETR significantly alleviates the collapse and achieves state-of-the-art performance among DETR-based methods on various challenging benchmarks including THUMOS14, ActivityNet-v1.3, HACS, and FineAction.
- Abstract(参考訳): 時間的行動検出(TAD)は、現実世界の動画アプリケーションでは基本的だが困難である。
トランスのユニークな利点を生かして、様々なDETRベースのアプローチがTADで採用されている。
しかし, 最近, 自己注意時の注意崩壊は, DAD用DETRの性能劣化を引き起こすことが確認された。
本稿は,DETRを用いたTAD法におけるクロスアテンションにおけるアテンション崩壊問題に,新たに対処するものである。
さらに,クロスアテンションは予測と異なるパターンを示し,ショートカット現象を示した。
そこで本研究では, 崩壊を回復し, クロスアテンション, セルフアテンションを予測と整合させる予測フィードバックDETR(Pred-DETR)を提案する。
具体的には,予測の関係から,新たな予測フィードバック目標を導出する。
その結果、Pred-DETRは崩壊を著しく軽減し、THUMOS14、ActivityNet-v1.3、HACS、FineActionといった様々な挑戦的なベンチマークでDETRベースの手法の最先端のパフォーマンスを達成する。
関連論文リスト
- Multi-modal Motion Prediction using Temporal Ensembling with Learning-based Aggregation [12.716238214021317]
本稿では,軌跡予測における欠落行動の問題を緩和するメタアルゴリズムである,学習ベースアグリゲーションを用いたテンポラルアグリゲーションを提案する。
複数のフレームから予測を確認することで、時間的アンサンブルは、個々のフレームの予測において時々エラーを補償する。
提案手法はArgoverse 2データセットで検証され,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-10-25T14:59:07Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - Explain, Adapt and Retrain: How to improve the accuracy of a PPM
classifier through different explanation styles [4.6281736192809575]
最近の論文では、結果指向の予測に予測プロセスモニタリングモデルがなぜ間違った予測を提供するのかを説明するための新しいアプローチが紹介されている。
半自動的な方法でミスを犯す予測者を誘導する最も一般的な特徴を特定するために、説明を利用する方法を示す。
論文 参考訳(メタデータ) (2023-03-27T06:37:55Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - AD-DROP: Attribution-Driven Dropout for Robust Language Model
Fine-Tuning [24.028662731799127]
帰属スコアの低い注意点の低下はトレーニングを加速させ、過度な適合のリスクを増大させることが判明した。
微調整とAD-DROPを交互に行うクロスチューニング戦略を開発し,高属性位置の過度な低下を回避する。
論文 参考訳(メタデータ) (2022-10-12T02:54:41Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Bootstrap Motion Forecasting With Self-Consistent Constraints [52.88100002373369]
自己整合性制約を用いた動き予測をブートストラップする新しい枠組みを提案する。
運動予測タスクは、過去の空間的・時間的情報を組み込むことで、車両の将来の軌跡を予測することを目的としている。
提案手法は,既存手法の予測性能を常に向上することを示す。
論文 参考訳(メタデータ) (2022-04-12T14:59:48Z) - Rethinking Transformer-based Set Prediction for Object Detection [57.7208561353529]
実験の結果,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度の点でDTRや他のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T21:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。