論文の概要: Relaxed Transformer Decoders for Direct Action Proposal Generation
- arxiv url: http://arxiv.org/abs/2102.01894v1
- Date: Wed, 3 Feb 2021 06:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 23:44:20.491140
- Title: Relaxed Transformer Decoders for Direct Action Proposal Generation
- Title(参考訳): ダイレクトアクションプロポーザル生成のためのリラクゼーショントランスデコーダ
- Authors: Jing Tan, Jiaqi Tang, Limin Wang, Gangshan Wu
- Abstract要約: 本稿では、直接アクション提案生成のためのシンプルでエンドツーエンドの学習可能なフレームワーク(RTD-Net)を提案する。
時間と空間の視覚的相違に対処するため、元の変換器検出フレームワーク(DETR)に対して3つの重要な改善を行った。
THUMOS14とActivityNet-1.3ベンチマークの実験では、RTD-Netの有効性が示されている。
- 参考スコア(独自算出の注目度): 30.516462193231888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action proposal generation is an important and challenging task in
video understanding, which aims at detecting all temporal segments containing
action instances of interest. The existing proposal generation approaches are
generally based on pre-defined anchor windows or heuristic bottom-up boundary
matching strategies. This paper presents a simple and end-to-end learnable
framework (RTD-Net) for direct action proposal generation, by re-purposing a
Transformer-alike architecture. To tackle the essential visual difference
between time and space, we make three important improvements over the original
transformer detection framework (DETR). First, to deal with slowness prior in
videos, we replace the original Transformer encoder with a boundary attentive
module to better capture temporal information. Second, due to the ambiguous
temporal boundary and relatively sparse annotations, we present a relaxed
matching loss to relieve the strict criteria of single assignment to each
groundtruth. Finally, we devise a three-branch head to further improve the
proposal confidence estimation by explicitly predicting its completeness.
Extensive experiments on THUMOS14 and ActivityNet-1.3 benchmarks demonstrate
the effectiveness of RTD-Net, on both tasks of temporal action proposal
generation and temporal action detection. Moreover, due to its simplicity in
design, our RTD-Net is more efficient than previous proposal generation methods
without non-maximum suppression post-processing. The code will be available at
\url{https://github.com/MCG-NJU/RTD-Action}.
- Abstract(参考訳): 時間アクション提案生成は、ビデオ理解において重要かつ困難なタスクであり、関心のあるアクションインスタンスを含むすべての時間セグメントを検出することを目的とする。
既存の提案生成アプローチは、一般的に事前に定義されたアンカーウィンドウまたはヒューリスティックボトムアップバウンダリマッチング戦略に基づいています。
本稿では,transformer-alikeアーキテクチャを再提案することにより,直接アクションプロポーザル生成のための簡易かつエンドツーエンドな学習フレームワーク(rtd-net)を提案する。
時間と空間の視覚的相違に対処するため,元の変換器検出フレームワーク(DETR)に対して3つの重要な改良を行った。
まず、ビデオの遅延に対処するために、最初のTransformerエンコーダを境界減衰モジュールに置き換えて、時間的情報をよりよくキャプチャする。
第2に,曖昧な時間的境界と比較的希薄なアノテーションにより,各接地に対する単一割当の厳格な基準を緩和するために,緩やかに一致した損失を提示する。
最後に,提案手法の完全性を明示的に予測することで,提案手法の信頼性を更に向上する3分岐ヘッドを考案する。
THUMOS14とActivityNet-1.3ベンチマークの大規模な実験は、時間的行動提案生成と時間的行動検出の両方のタスクにおいてRTD-Netの有効性を示す。
また,rtd-netは設計が単純であるため,処理後の最大化を伴わない提案生成手法よりも効率的である。
コードは \url{https://github.com/MCG-NJU/RTD-Action} で入手できる。
関連論文リスト
- Faster Learning of Temporal Action Proposal via Sparse Multilevel
Boundary Generator [9.038216757761955]
ビデオにおける時間的行動のローカライゼーションは、コンピュータビジョンの分野で大きな課題を呈している。
本稿では,境界分類と動作完全性回帰を用いた境界感性手法を改良したSMBG(Sparse Multilevel boundary Generator)を提案する。
提案手法は,ActivityNet-1.3 と THUMOS14 の2つのベンチマークで評価され,より高速な推論速度 (2.47xBSN++, 2.12xDBG) で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:26:56Z) - An Efficient Spatio-Temporal Pyramid Transformer for Action Detection [40.68615998427292]
動作検出のための効率的な階層型時空間ピラミッド変換(STPT)ビデオフレームワークを提案する。
具体的には,早期の局所的時間的リッチタイム表現を符号化するために,局所的ウィンドウアテンションを用いて,後期の長期的時空間依存を捕捉するためにグローバルなアテンションを適用することを提案する。
このように、当社のSTPTは、局所性と依存性の両方を大幅に冗長化してエンコードすることができ、正確性と効率の両立を期待できるトレードオフを提供します。
論文 参考訳(メタデータ) (2022-07-21T12:38:05Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Temporal Action Proposal Generation with Transformers [25.66256889923748]
本稿では,オリジナルトランスフォーマーを用いた時間的アクション提案生成フレームワークを直感的に提案する。
境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測する。
The Proposal Transformer learns the rich-proposal relationship for reliable confidence evaluation。
論文 参考訳(メタデータ) (2021-05-25T16:22:12Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。