論文の概要: Video-based Human-Object Interaction Detection from Tubelet Tokens
- arxiv url: http://arxiv.org/abs/2206.01908v1
- Date: Sat, 4 Jun 2022 04:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:24:44.886977
- Title: Video-based Human-Object Interaction Detection from Tubelet Tokens
- Title(参考訳): チューブレットトークンからの映像ベースヒューマンオブジェクトインタラクション検出
- Authors: Danyang Tu and Wei Sun and Xiongkuo Min and Guangtao Zhai and Wei Shen
- Abstract要約: 本稿では,チューブレットトークンを学習し,映像に基づくヒューマンオブジェクトインタラクション検出のための表現として機能するTUTORというビジョントランスフォーマーを提案する。
チューブレットトークンは、空間的および時間的マージンに沿って意味論的に関連するパッチトークンを集約してリンクすることにより、ビデオを構造化する。
その結果,VidHOIでは相対的なmAPゲインが16.14ドル,VidHOIでは2ポイント,スピードアップでは4倍の2ポイントのアップを達成できた。
- 参考スコア(独自算出の注目度): 38.631301555602796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel vision Transformer, named TUTOR, which is able to learn
tubelet tokens, served as highly-abstracted spatiotemporal representations, for
video-based human-object interaction (V-HOI) detection. The tubelet tokens
structurize videos by agglomerating and linking semantically-related patch
tokens along spatial and temporal domains, which enjoy two benefits: 1)
Compactness: each tubelet token is learned by a selective attention mechanism
to reduce redundant spatial dependencies from others; 2) Expressiveness: each
tubelet token is enabled to align with a semantic instance, i.e., an object or
a human, across frames, thanks to agglomeration and linking. The effectiveness
and efficiency of TUTOR are verified by extensive experiments. Results shows
our method outperforms existing works by large margins, with a relative mAP
gain of $16.14\%$ on VidHOI and a 2 points gain on CAD-120 as well as a $4
\times$ speedup.
- Abstract(参考訳): 本稿では,ビデオベースヒューマン・オブジェクト・インタラクション(v-hoi)検出のための高抽象化時空間表現として機能する,チューブレットトークンを学習可能なtutorという新しい視覚トランスフォーマを提案する。
tubeletトークンは,意味的に関連したパッチトークンを空間的および時間的領域に沿って凝集・リンクすることで,ビデオを構造化する。
1) コンパクト性: 各塊状トークンは,他者からの冗長な空間依存を減らすための選択的注意機構によって学習される。
2)表現性:各チューブレットトークンは、アグロメレーションとリンクのおかげで、フレーム間のセマンティックインスタンス、すなわちオブジェクトまたは人間と整合することができる。
TUTORの有効性と効率は広範な実験によって検証される。
その結果,VidHOIでは相対的なmAPゲインが16.14 %,CAD-120では2ポイント,CAD-120では4 \times$のスピードアップが得られた。
関連論文リスト
- In Defense of Clip-based Video Relation Detection [32.05021939177942]
ビデオ視覚関係検出(VidVRD)は、空間的境界ボックスと時間的境界を用いて、ビデオ内の視覚的関係三重項を検出することを目的としている。
ビデオクリップに基づくオブジェクトベースの空間コンテキストと関係ベースの時間コンテキストを豊かにする階層型コンテキストモデル(HCM)を提案する。
我々のHCMは、クリップベースパラダイムに高度な空間的・時間的コンテキストモデリングを組み込むことの有効性を強調し、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-18T05:42:01Z) - Efficient Multi-Scale Attention Module with Cross-Spatial Learning [4.046170185945849]
効率的なマルチスケールアテンション(EMA)モジュールを提案する。
チャネルごとの情報保持と計算オーバーヘッドの低減に重点を置いている。
我々は画像分類と物体検出タスクについて広範囲にわたるアブレーション研究と実験を行った。
論文 参考訳(メタデータ) (2023-05-23T00:35:47Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Tube-Link: A Flexible Cross Tube Framework for Universal Video
Segmentation [83.65774845267622]
Tube-Linkは、ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークである。
我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。
論文 参考訳(メタデータ) (2023-03-22T17:52:11Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。