論文の概要: Temporal Action Proposal Generation with Transformers
- arxiv url: http://arxiv.org/abs/2105.12043v1
- Date: Tue, 25 May 2021 16:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 16:13:00.265301
- Title: Temporal Action Proposal Generation with Transformers
- Title(参考訳): 変圧器を用いた時間行動生成
- Authors: Lining Wang, Haosen Yang, Wenhao Wu, Hongxun Yao, Hujie Huang
- Abstract要約: 本稿では,オリジナルトランスフォーマーを用いた時間的アクション提案生成フレームワークを直感的に提案する。
境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測する。
The Proposal Transformer learns the rich-proposal relationship for reliable confidence evaluation。
- 参考スコア(独自算出の注目度): 25.66256889923748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer networks are effective at modeling long-range contextual
information and have recently demonstrated exemplary performance in the natural
language processing domain. Conventionally, the temporal action proposal
generation (TAPG) task is divided into two main sub-tasks: boundary prediction
and proposal confidence prediction, which rely on the frame-level dependencies
and proposal-level relationships separately. To capture the dependencies at
different levels of granularity, this paper intuitively presents a unified
temporal action proposal generation framework with original Transformers,
called TAPG Transformer, which consists of a Boundary Transformer and a
Proposal Transformer. Specifically, the Boundary Transformer captures long-term
temporal dependencies to predict precise boundary information and the Proposal
Transformer learns the rich inter-proposal relationships for reliable
confidence evaluation. Extensive experiments are conducted on two popular
benchmarks: ActivityNet-1.3 and THUMOS14, and the results demonstrate that TAPG
Transformer outperforms state-of-the-art methods. Equipped with the existing
action classifier, our method achieves remarkable performance on the temporal
action localization task. Codes and models will be available.
- Abstract(参考訳): トランスフォーマーネットワークは、長距離文脈情報のモデリングに有効であり、最近自然言語処理領域における模範的性能を実証している。
伝統的に、時間的行動提案生成(TAPG)タスクは、フレームレベルの依存関係とプロポーザルレベルの関係に依存する境界予測とプロポーザル信頼予測の2つの主要なサブタスクに分けられる。
粒度の異なるレベルでの依存関係を捉えるため,本論文では,境界トランスと提案トランスからなるtapgトランスと呼ばれる,オリジナルトランスを用いた統合時相動作提案生成フレームワークを直感的に提示する。
具体的には、境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測し、提案変換器は、信頼できる信頼度評価のために、豊富な確率間関係を学習する。
ActivityNet-1.3 と THUMOS14 の2つの一般的なベンチマークで大規模な実験が行われ、TAPG Transformer が最先端の手法より優れていることを示した。
本手法は,既存の行動分類器を備え,時間的行動局所化タスクにおいて顕著な性能を実現する。
コードとモデルは利用可能だ。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。
近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。
我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文 参考訳(メタデータ) (2024-06-10T11:33:34Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Temporal Transformer Networks with Self-Supervision for Action
Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文 参考訳(メタデータ) (2021-12-14T12:53:53Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Relaxed Transformer Decoders for Direct Action Proposal Generation [30.516462193231888]
本稿では、直接アクション提案生成のためのシンプルでエンドツーエンドの学習可能なフレームワーク(RTD-Net)を提案する。
時間と空間の視覚的相違に対処するため、元の変換器検出フレームワーク(DETR)に対して3つの重要な改善を行った。
THUMOS14とActivityNet-1.3ベンチマークの実験では、RTD-Netの有効性が示されている。
論文 参考訳(メタデータ) (2021-02-03T06:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。