論文の概要: Prediction-Feedback DETR for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2408.16729v3
- Date: Thu, 19 Dec 2024 10:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 18:44:15.771562
- Title: Prediction-Feedback DETR for Temporal Action Detection
- Title(参考訳): 時間的行動検出のための予測フィードバックDETR
- Authors: Jihwan Kim, Miso Lee, Cheol-Ho Cho, Jihyun Lee, Jae-Pil Heo,
- Abstract要約: 時間的行動検出(TAD)は、現実世界の動画アプリケーションでは基本的だが困難である。
近年,自己注意時の注意崩壊がDADに対するDETRの性能低下を引き起こすことが確認されている。
本稿では, 崩壊を回復し, クロスアテンション, セルフアテンションを予測と整合させる新しいフレームワーク, Prediction-Feedback DETR (Pred-DETR)を提案する。
- 参考スコア(独自算出の注目度): 30.247560766324526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Detection (TAD) is fundamental yet challenging for real-world video applications. Leveraging the unique benefits of transformers, various DETR-based approaches have been adopted in TAD. However, it has recently been identified that the attention collapse in self-attention causes the performance degradation of DETR for TAD. Building upon previous research, this paper newly addresses the attention collapse problem in cross-attention within DETR-based TAD methods. Moreover, our findings reveal that cross-attention exhibits patterns distinct from predictions, indicating a short-cut phenomenon. To resolve this, we propose a new framework, Prediction-Feedback DETR (Pred-DETR), which utilizes predictions to restore the collapse and align the cross- and self-attention with predictions. Specifically, we devise novel prediction-feedback objectives using guidance from the relations of the predictions. As a result, Pred-DETR significantly alleviates the collapse and achieves state-of-the-art performance among DETR-based methods on various challenging benchmarks including THUMOS14, ActivityNet-v1.3, HACS, and FineAction.
- Abstract(参考訳): 時間的行動検出(TAD)は、現実世界の動画アプリケーションでは基本的だが困難である。
トランスのユニークな利点を生かして、様々なDETRベースのアプローチがTADで採用されている。
しかし, 最近, 自己注意時の注意崩壊は, DAD用DETRの性能劣化を引き起こすことが確認された。
本稿は,DETRを用いたTAD法におけるクロスアテンションにおけるアテンション崩壊問題に,新たに対処するものである。
さらに,クロスアテンションは予測と異なるパターンを示し,ショートカット現象を示した。
そこで本研究では, 崩壊を回復し, クロスアテンション, セルフアテンションを予測と整合させる予測フィードバックDETR(Pred-DETR)を提案する。
具体的には,予測の関係から,新たな予測フィードバック目標を導出する。
その結果、Pred-DETRは崩壊を著しく軽減し、THUMOS14、ActivityNet-v1.3、HACS、FineActionといった様々な挑戦的なベンチマークでDETRベースの手法の最先端のパフォーマンスを達成する。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - Action-Guided Attention for Video Action Anticipation [14.34017272203601]
Action-Guided Attention(AGA)は、予測されたアクションシーケンスをクエリやキーとして明示的に活用してシーケンスモデリングをガイドするアテンションメカニズムである。
AGAは検証から見えないテストセットまでよく一般化する。
論文 参考訳(メタデータ) (2026-03-02T11:13:45Z) - Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis [61.597286699809395]
textbfTemporal Attention Pattern Predictability Analysis (TAPPA)を紹介する。
TAPPAは、注意パターンを明確な規則性を持つ予測可能なパターンと、効果的にランダムに見える予測不可能なパターンと特徴付けている。
クエリ,キー,ロータリー位置埋め込み(RoPE)の結合効果による3つの代表的な症例の詳細な数学的解析を行う。
論文 参考訳(メタデータ) (2026-01-29T13:40:23Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Abstain Mask Retain Core: Time Series Prediction by Adaptive Masking Loss with Representation Consistency [4.047219770183742]
時系列予測はエネルギー管理や金融市場といった重要な領域において重要な役割を担っている。
本研究は, 履歴データを適切に切り詰めることによって予測精度を向上させるという, 直感に反する現象を明らかにする。
本稿では,適応的マスキング・ロス(Adaptive Masking Loss)と表現整合性(Representation Consistency)を提案する。
論文 参考訳(メタデータ) (2025-10-22T19:23:53Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - TIMING: Temporality-Aware Integrated Gradients for Time Series Explanation [30.866780156914512]
従来の統合勾配(IG)は、予測に正と負の両方の影響のある臨界点を効果的に捉える。
これらの課題を克服するために、TIMingを導入し、その理論的特性を維持しながら時間的認識を取り入れてIGを強化する。
論文 参考訳(メタデータ) (2025-06-05T13:40:40Z) - Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。
最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。
本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T16:48:55Z) - ResFlow: Fine-tuning Residual Optical Flow for Event-based High Temporal Resolution Motion Estimation [50.80115710105251]
イベントカメラは、高時間分解能(HTR)モーション推定に重要な可能性を秘めている。
イベントデータを用いてHTR光流を推定するための残差に基づくパラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Multi-modal Motion Prediction using Temporal Ensembling with Learning-based Aggregation [12.716238214021317]
本稿では,軌跡予測における欠落行動の問題を緩和するメタアルゴリズムである,学習ベースアグリゲーションを用いたテンポラルアグリゲーションを提案する。
複数のフレームから予測を確認することで、時間的アンサンブルは、個々のフレームの予測において時々エラーを補償する。
提案手法はArgoverse 2データセットで検証され,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-10-25T14:59:07Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - Explain, Adapt and Retrain: How to improve the accuracy of a PPM
classifier through different explanation styles [4.6281736192809575]
最近の論文では、結果指向の予測に予測プロセスモニタリングモデルがなぜ間違った予測を提供するのかを説明するための新しいアプローチが紹介されている。
半自動的な方法でミスを犯す予測者を誘導する最も一般的な特徴を特定するために、説明を利用する方法を示す。
論文 参考訳(メタデータ) (2023-03-27T06:37:55Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - AD-DROP: Attribution-Driven Dropout for Robust Language Model
Fine-Tuning [24.028662731799127]
帰属スコアの低い注意点の低下はトレーニングを加速させ、過度な適合のリスクを増大させることが判明した。
微調整とAD-DROPを交互に行うクロスチューニング戦略を開発し,高属性位置の過度な低下を回避する。
論文 参考訳(メタデータ) (2022-10-12T02:54:41Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Bootstrap Motion Forecasting With Self-Consistent Constraints [52.88100002373369]
自己整合性制約を用いた動き予測をブートストラップする新しい枠組みを提案する。
運動予測タスクは、過去の空間的・時間的情報を組み込むことで、車両の将来の軌跡を予測することを目的としている。
提案手法は,既存手法の予測性能を常に向上することを示す。
論文 参考訳(メタデータ) (2022-04-12T14:59:48Z) - Rethinking Transformer-based Set Prediction for Object Detection [57.7208561353529]
実験の結果,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度の点でDTRや他のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T21:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。