論文の概要: OadTR: Online Action Detection with Transformers
- arxiv url: http://arxiv.org/abs/2106.11149v1
- Date: Mon, 21 Jun 2021 14:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:28:00.616296
- Title: OadTR: Online Action Detection with Transformers
- Title(参考訳): OadTR: トランスフォーマーによるオンラインアクション検出
- Authors: Xiang Wang, Shiwei Zhang, Zhiwu Qing, Yuanjie Shao, Zhengrong Zuo,
Changxin Gao, Nong Sang
- Abstract要約: 我々は,これらの問題に対処するために,トランスフォーマーをベースとした新しいエンコーダデコーダフレームワークOadTRを提案する。
OadTRは、過去の情報を符号化し、将来のコンテキストを同時に予測することで、現在の行動を認識することができる。
- 参考スコア(独自算出の注目度): 40.227281499219444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent approaches for online action detection tend to apply Recurrent
Neural Network (RNN) to capture long-range temporal structure. However, RNN
suffers from non-parallelism and gradient vanishing, hence it is hard to be
optimized. In this paper, we propose a new encoder-decoder framework based on
Transformers, named OadTR, to tackle these problems. The encoder attached with
a task token aims to capture the relationships and global interactions between
historical observations. The decoder extracts auxiliary information by
aggregating anticipated future clip representations. Therefore, OadTR can
recognize current actions by encoding historical information and predicting
future context simultaneously. We extensively evaluate the proposed OadTR on
three challenging datasets: HDD, TVSeries, and THUMOS14. The experimental
results show that OadTR achieves higher training and inference speeds than
current RNN based approaches, and significantly outperforms the
state-of-the-art methods in terms of both mAP and mcAP. Code is available at
https://github.com/wangxiang1230/OadTR.
- Abstract(参考訳): 最近のオンライン行動検出のアプローチは、長い時間的構造を捉えるためにrecurrent neural network (rnn)を適用する傾向がある。
しかし、rnnはパラレル主義や勾配消失に苦しむため、最適化することは困難である。
本稿では,OadTRというトランスフォーマーをベースとした新しいエンコーダデコーダフレームワークを提案する。
タスクトークンを付加したエンコーダは、歴史的観測間の関係とグローバルな相互作用をキャプチャすることを目的としている。
デコーダは、期待される将来のクリップ表現を集約して補助情報を抽出する。
したがって、oadtrは、過去の情報をエンコードし、将来の状況を同時に予測することで、現在の行動を認識することができる。
提案するOadTRをHDD,TVSeries,THUMOS14の3つの挑戦的データセットで評価した。
実験の結果,OadTRは現在のRNNベースアプローチよりも高いトレーニングと推論速度を実現し,mAPとmcAPの両面で最先端の手法よりも優れていた。
コードはhttps://github.com/wangxiang1230/oadtrで入手できる。
関連論文リスト
- Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - A Distance Correlation-Based Approach to Characterize the Effectiveness of Recurrent Neural Networks for Time Series Forecasting [1.9950682531209158]
距離相関の多元的指標を用いて,RNN成分と時系列特性をリンクする手法を提案する。
RNN活性化層が時系列のラグ構造をよく学習していることを実証的に示す。
また,アクティベーション層は移動平均およびヘテロスケダティック時系列過程を適切にモデル化できないことを示す。
論文 参考訳(メタデータ) (2023-07-28T22:32:08Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Unsupervised Representation Learning via Neural Activation Coding [66.65837512531729]
我々は、下流アプリケーションのためのラベルなしデータから深部表現を学習するための新しいアプローチとして、ニューラルアクティベーションコーディング(NAC)を提案する。
我々はNACが連続したデータ表現と離散的なデータ表現の両方を学習し、それぞれ下流の2つのタスクで評価することを示した。
論文 参考訳(メタデータ) (2021-12-07T21:59:45Z) - TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal
Predictive Learning [1.952097552284465]
本稿では3次元時間畳み込み変換器 (TCTN) というアルゴリズムを提案する。
提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。
論文 参考訳(メタデータ) (2021-12-02T10:05:01Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z) - Volterra Neural Networks (VNNs) [24.12314339259243]
本稿では,畳み込みニューラルネットワークの複雑性を低減するために,Volterraフィルタにインスパイアされたネットワークアーキテクチャを提案する。
本稿では,Volterra Neural Network(VNN)の並列実装とその性能について述べる。
提案手法は,動作認識のためのUCF-101およびHMDB-51データセットを用いて評価し,CNN手法よりも優れていた。
論文 参考訳(メタデータ) (2019-10-21T19:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。