論文の概要: Video Relation Detection via Tracklet based Visual Transformer
- arxiv url: http://arxiv.org/abs/2108.08669v1
- Date: Thu, 19 Aug 2021 13:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:30:09.403705
- Title: Video Relation Detection via Tracklet based Visual Transformer
- Title(参考訳): トラックレットを用いた映像変換器による映像関係検出
- Authors: Kaifeng Gao, Long Chen, Yifeng Huang, Jun Xiao
- Abstract要約: 近年,ビデオ視覚関係検出 (VidVRD) がコミュニティに注目されている。
我々は,最先端のビデオオブジェクトのトラックレット検出パイプラインMEGAとDeepSORTを適用して,トラックレットの提案を生成する。
そして、プリカット操作をせずに、トラックレットベースでVidVRDを実行する。
- 参考スコア(独自算出の注目度): 12.31184296559801
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Visual Relation Detection (VidVRD), has received significant attention
of our community over recent years. In this paper, we apply the
state-of-the-art video object tracklet detection pipeline MEGA and deepSORT to
generate tracklet proposals. Then we perform VidVRD in a tracklet-based manner
without any pre-cutting operations. Specifically, we design a tracklet-based
visual Transformer. It contains a temporal-aware decoder which performs feature
interactions between the tracklets and learnable predicate query embeddings,
and finally predicts the relations. Experimental results strongly demonstrate
the superiority of our method, which outperforms other methods by a large
margin on the Video Relation Understanding (VRU) Grand Challenge in ACM
Multimedia 2021. Codes are released at
https://github.com/Dawn-LX/VidVRD-tracklets.
- Abstract(参考訳): 近年,ビデオ視覚関係検出 (VidVRD) がコミュニティに注目されている。
本稿では,最先端のビデオオブジェクトトラックレット検出パイプラインMEGAとDeepSORTを適用して,トラックレットの提案を生成する。
次に,プレカット操作を行わずにトラックレットベースでvidvrdを行う。
具体的には、トラックレットベースのビジュアルトランスを設計する。
トラックレットと学習可能な述語クエリ埋め込み間の機能インタラクションを実行し、最終的に関係を予測する、時間対応型デコーダが含まれている。
ACMマルチメディア2021におけるビデオ関係理解(VRU)グランドチャレンジにおいて,他の手法よりも優れていることを示す実験結果が得られた。
コードはhttps://github.com/dawn-lx/vidvrd-trackletsでリリースされる。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - TrackGo: A Flexible and Efficient Method for Controllable Video Generation [32.906496577618924]
条件付きビデオ生成のための新しいアプローチであるTrackGoを紹介する。
TrackGoは、ビデオコンテンツを操作するための柔軟で正確なメカニズムを提供する。
また,制御実装のためのTrackAdapterを提案する。
論文 参考訳(メタデータ) (2024-08-21T09:42:04Z) - AViTMP: A Tracking-Specific Transformer for Single-Branch Visual Tracking [17.133735660335343]
本稿では,AViTMP(Adaptive ViT Model Prediction Tracker)を提案する。
この方法は、初めて識別モデルで単一ブランチネットワークをブリッジする。
AViTMPは、特に長期追跡とロバスト性の観点から、最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2023-10-30T13:48:04Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - End-to-End Referring Video Object Segmentation with Multimodal
Transformers [0.0]
本稿では,ビデオオブジェクトのセグメンテーションタスクへの簡単なトランスフォーマーベースアプローチを提案する。
我々のフレームワークは、MTTR(Multimodal Tracking Transformer)と呼ばれ、RVOSタスクをシーケンス予測問題としてモデル化している。
MTTRはエンドツーエンドのトレーニングが可能で、テキスト関連の帰納バイアスコンポーネントが不要で、追加のマスクリファインメント後処理ステップを必要としない。
論文 参考訳(メタデータ) (2021-11-29T18:59:32Z) - Split and Connect: A Universal Tracklet Booster for Multi-Object
Tracking [33.23825397557663]
マルチオブジェクト追跡(MOT)はコンピュータビジョン分野において重要な課題である。
本稿では,他の任意のトラッカー上に構築可能なトラックレットブースターアルゴリズムを提案する。
モチベーションは単純で単純で、潜在的なIDスイッチ位置でトラックレットを分割し、同じオブジェクトから複数のトラックレットを1つに接続する。
論文 参考訳(メタデータ) (2021-05-06T03:49:19Z) - Video Transformer Network [0.0]
本稿では,ビデオ認識のためのトランスフォーマーベースのフレームワークを提案する。
近年の視覚変換器の発展に触発されて、3D ConvNetに依存するビデオアクション認識の標準的アプローチを廃止する。
われわれのアプローチは汎用的で、任意の2次元空間ネットワーク上に構築されている。
論文 参考訳(メタデータ) (2021-02-01T09:29:10Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。