論文の概要: Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation
- arxiv url: http://arxiv.org/abs/2103.16024v1
- Date: Tue, 30 Mar 2021 02:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:59:42.346981
- Title: Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation
- Title(参考訳): 時間的動作提案生成のための適応グラフ付き拡張トランス
- Authors: Shuning Chang, Pichao Wang, Fan Wang, Hao Li, Jiashi Feng
- Abstract要約: TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
- 参考スコア(独自算出の注目度): 79.98992138865042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action proposal generation (TAPG) is a fundamental and challenging
task in video understanding, especially in temporal action detection. Most
previous works focus on capturing the local temporal context and can well
locate simple action instances with clean frames and clear boundaries. However,
they generally fail in complicated scenarios where interested actions involve
irrelevant frames and background clutters, and the local temporal context
becomes less effective. To deal with these problems, we present an augmented
transformer with adaptive graph network (ATAG) to exploit both long-range and
local temporal contexts for TAPG. Specifically, we enhance the vanilla
transformer by equipping a snippet actionness loss and a front block, dubbed
augmented transformer, and it improves the abilities of capturing long-range
dependencies and learning robust feature for noisy action instances.Moreover,
an adaptive graph convolutional network (GCN) is proposed to build local
temporal context by mining the position information and difference between
adjacent features. The features from the two modules carry rich semantic
information of the video, and are fused for effective sequential proposal
generation. Extensive experiments are conducted on two challenging datasets,
THUMOS14 and ActivityNet1.3, and the results demonstrate that our method
outperforms state-of-the-art TAPG methods. Our code will be released soon.
- Abstract(参考訳): 時間的行動提案生成(TAPG)は、ビデオ理解、特に時間的行動検出における基本的な課題である。
これまでのほとんどの作業は、ローカルの時間的コンテキストのキャプチャに重点を置いており、クリーンなフレームと明確なバウンダリを持つ単純なアクションインスタンスを適切に見つけることができる。
しかし、一般的には、関心のあるアクションが無関係なフレームや背景の散らばりを伴う複雑なシナリオで失敗し、局所的な時間的文脈がより効果的になる。
これらの問題に対処するため、TAPGの長距離時間と局所時間の両方を利用するための適応グラフネットワーク(ATAG)を備えた拡張変換器を提案する。
具体的には,スニペット動作損失と前部ブロックを装着してバニラトランスを強化し,長距離依存性を捕捉し,雑音下でのロバストな特徴を学習する能力を向上させるとともに,位置情報と隣接特徴の差異をマイニングして局所的時間的文脈を構築するための適応グラフ畳み込みネットワーク(gcn)を提案する。
2つのモジュールの特徴は、ビデオの豊富な意味情報を持ち、効果的な逐次提案生成のために融合される。
THUMOS14とActivityNet1.3の2つの挑戦的データセットに対して大規模な実験を行い,本手法が最先端のTAPG法より優れていることを示す。
私たちのコードはまもなくリリースされます。
関連論文リスト
- Introducing Gating and Context into Temporal Action Detection [0.8987776881291144]
時間的行動検出(TAD)は、動作の重なり合いと動作の変動が原因で依然として困難である。
最近の知見から,TAD性能は自己保持機構よりもトランスの構造設計に依存することが示唆された。
本稿では,軽量かつ効果的な操作による特徴抽出プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-06T11:52:42Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Temporal Action Proposal Generation with Transformers [25.66256889923748]
本稿では,オリジナルトランスフォーマーを用いた時間的アクション提案生成フレームワークを直感的に提案する。
境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測する。
The Proposal Transformer learns the rich-proposal relationship for reliable confidence evaluation。
論文 参考訳(メタデータ) (2021-05-25T16:22:12Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Relaxed Transformer Decoders for Direct Action Proposal Generation [30.516462193231888]
本稿では、直接アクション提案生成のためのシンプルでエンドツーエンドの学習可能なフレームワーク(RTD-Net)を提案する。
時間と空間の視覚的相違に対処するため、元の変換器検出フレームワーク(DETR)に対して3つの重要な改善を行った。
THUMOS14とActivityNet-1.3ベンチマークの実験では、RTD-Netの有効性が示されている。
論文 参考訳(メタデータ) (2021-02-03T06:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。