論文の概要: TubeR: Tube-Transformer for Action Detection
- arxiv url: http://arxiv.org/abs/2104.00969v1
- Date: Fri, 2 Apr 2021 10:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:47:51.093685
- Title: TubeR: Tube-Transformer for Action Detection
- Title(参考訳): tuber: 動作検出用チューブトランスフォーマ
- Authors: Jiaojiao Zhao, Arthur Li, Chunhui Liu, Shuai Bing, Hao Chen, Cees G.M.
Snoek, Joseph Tighe
- Abstract要約: エンド・ツー・エンド動作検出のための最初のトランスベースネットワークである tuber を提案する。
tubeRは手作業で設計されたチューブ構造に依存しず、予測されたアクションボックスを自動的にリンクし、アクションに関連する一連のチューブクエリを学習する。
- 参考スコア(独自算出の注目度): 38.72778422589027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose TubeR: the first transformer based network for
end-to-end action detection, with an encoder and decoder optimized for modeling
action tubes with variable lengths and aspect ratios. TubeR does not rely on
hand-designed tube structures, automatically links predicted action boxes over
time and learns a set of tube queries related to actions. By learning action
tube embeddings, TubeR predicts more precise action tubes with flexible spatial
and temporal extents. Our experiments demonstrate TubeR achieves
state-of-the-art among single-stream methods on UCF101-24 and J-HMDB. TubeR
outperforms existing one-model methods on AVA and is even competitive with the
two-model methods. Moreover, we observe TubeR has the potential on tracking
actors with different actions, which will foster future research in long-range
video understanding.
- Abstract(参考訳): 本稿では,エンコーダとデコーダを可変長とアスペクト比の動作管のモデル化に最適化した,エンド・ツー・エンド動作検出用最初のトランスベースネットワークである tuber を提案する。
tubeRは手作業で設計されたチューブ構造に依存しず、予測されたアクションボックスを自動的にリンクし、アクションに関連する一連のチューブクエリを学習する。
アクションチューブ埋め込みを学習することで、 tuberは柔軟な空間的および時間的範囲のより正確なアクションチューブを予測する。
実験により,UCF101-24とJ-HMDBの単一ストリーム法でチューブRの最先端性を実証した。
TubeRは既存のAVAの1モデル法よりも優れており、2モデル法と競合する。
さらに,TubeRは異なる行動のアクターを追跡する可能性を秘めており,長距離映像理解における今後の研究を後押しする。
関連論文リスト
- COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers [1.894259749028573]
動作スポッティングのためのトランスフォーマーを初期化する新しいパイプラインであるCOMEDIANを提案する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-09-03T20:50:53Z) - In-Rack Test Tube Pose Estimation Using RGB-D Data [14.644296085012643]
そこで本研究では,色と深度データを用いたインラック試験管のポーズの検出と推定を行うフレームワークを提案する。
この手法は、試験管と管ラックの両方を効果的に分類し、ローカライズするために、YOLOオブジェクト検出器を利用する。
最適化に基づくアルゴリズムを用いることで,実験管のポーズを効果的に評価・改善する。
論文 参考訳(メタデータ) (2023-08-21T01:35:06Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Video-based Human-Object Interaction Detection from Tubelet Tokens [38.631301555602796]
本稿では,チューブレットトークンを学習し,映像に基づくヒューマンオブジェクトインタラクション検出のための表現として機能するTUTORというビジョントランスフォーマーを提案する。
チューブレットトークンは、空間的および時間的マージンに沿って意味論的に関連するパッチトークンを集約してリンクすることにより、ビデオを構造化する。
その結果,VidHOIでは相対的なmAPゲインが16.14ドル,VidHOIでは2ポイント,スピードアップでは4倍の2ポイントのアップを達成できた。
論文 参考訳(メタデータ) (2022-06-04T04:27:59Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z) - Two-Stream AMTnet for Action Detection [12.581710073789848]
本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
論文 参考訳(メタデータ) (2020-04-03T12:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。