論文の概要: Temporal Action Localization with Enhanced Instant Discriminability
- arxiv url: http://arxiv.org/abs/2309.05590v1
- Date: Mon, 11 Sep 2023 16:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 11:50:15.328390
- Title: Temporal Action Localization with Enhanced Instant Discriminability
- Title(参考訳): インスタント識別能力の増強による時間的行動局在化
- Authors: Dingfeng Shi, Qiong Cao, Yujie Zhong, Shan An, Jian Cheng, Haogang
Zhu, Dacheng Tao
- Abstract要約: 時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
- 参考スコア(独自算出の注目度): 66.76095239972094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action detection (TAD) aims to detect all action boundaries and
their corresponding categories in an untrimmed video. The unclear boundaries of
actions in videos often result in imprecise predictions of action boundaries by
existing methods. To resolve this issue, we propose a one-stage framework named
TriDet. First, we propose a Trident-head to model the action boundary via an
estimated relative probability distribution around the boundary. Then, we
analyze the rank-loss problem (i.e. instant discriminability deterioration) in
transformer-based methods and propose an efficient scalable-granularity
perception (SGP) layer to mitigate this issue. To further push the limit of
instant discriminability in the video backbone, we leverage the strong
representation capability of pretrained large models and investigate their
performance on TAD. Last, considering the adequate spatial-temporal context for
classification, we design a decoupled feature pyramid network with separate
feature pyramids to incorporate rich spatial context from the large model for
localization. Experimental results demonstrate the robustness of TriDet and its
state-of-the-art performance on multiple TAD datasets, including hierarchical
(multilabel) TAD datasets.
- Abstract(参考訳): 時間的動作検出(tad)は、すべてのアクション境界とその対応するカテゴリを未トリミングビデオで検出することを目的としている。
ビデオにおけるアクション境界の不明確さは、しばしば既存の方法によるアクション境界の不正確な予測をもたらす。
この問題を解決するために,TriDetというワンステージフレームワークを提案する。
まず,その境界付近の相対確率分布を推定し,行動境界をモデル化するトライデントヘッドを提案する。
そこで我々は,変圧器を用いた手法におけるランクロス問題(即時識別性劣化)を分析し,この問題を緩和するために,効率よくスケーラブルな粒度知覚(SGP)層を提案する。
ビデオバックボーンにおける瞬時判別可能性の限界をさらに押し上げるために,事前学習した大規模モデルの強力な表現能力を活用して,tad上での性能を検証した。
最後に、分類のための適切な時空間文脈を考慮し、局所化のための大規模モデルからリッチな空間コンテキストを組み込むために、分離された特徴ピラミッドネットワークを設計する。
実験により,階層型 tad データセットを含む複数の tad データセットにおける tridet のロバスト性と,その最先端性能が実証された。
関連論文リスト
- Boundary-Aware Proposal Generation Method for Temporal Action
Localization [23.79359799496947]
TALは、トリミングされていないビデオの中で、アクションのカテゴリと時間的境界を見つけることを目的としている。
ほとんどの TAL 法は時間境界ではなく行動ラベルに敏感な行動認識モデルに大きく依存している。
コントラスト学習を用いた境界認識提案生成(BAPG)手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T01:41:09Z) - TriDet: Temporal Action Detection with Relative Boundary Modeling [85.49834276225484]
既存の手法はビデオのあいまいな動作境界による不正確な境界予測に悩まされることが多い。
本稿では,その境界付近の相対確率分布を推定して,行動境界をモデル化する新しいトライデントヘッドを提案する。
TriDetは3つの挑戦的なベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-13T17:59:59Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。