論文の概要: A Generic Object Re-identification System for Short Videos
- arxiv url: http://arxiv.org/abs/2102.05275v1
- Date: Wed, 10 Feb 2021 05:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:36:07.372059
- Title: A Generic Object Re-identification System for Short Videos
- Title(参考訳): ショートビデオのためのジェネリックオブジェクト再識別システム
- Authors: Tairu Qiu, Guanxian Chen, Zhongang Qi, Bin Li, Ying Shan, Xiangyang
Xue
- Abstract要約: オブジェクト検出モジュールにはTIFN(Temporal Information Fusion Network)が提案されている。
The Cross-Layer Pointwise Siamese Network (CPSN) is proposed to enhance the robustness of the appearance model。
実世界のショートビデオを含む2つの課題データセットは、ビデオオブジェクトの軌跡抽出とジェネリックオブジェクトの再同定のために構築されている。
- 参考スコア(独自算出の注目度): 39.662850217144964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short video applications like TikTok and Kwai have been a great hit recently.
In order to meet the increasing demands and take full advantage of visual
information in short videos, objects in each short video need to be located and
analyzed as an upstream task. A question is thus raised -- how to improve the
accuracy and robustness of object detection, tracking, and re-identification
across tons of short videos with hundreds of categories and complicated visual
effects (VFX). To this end, a system composed of a detection module, a tracking
module and a generic object re-identification module, is proposed in this
paper, which captures features of major objects from short videos. In
particular, towards the high efficiency demands in practical short video
application, a Temporal Information Fusion Network (TIFN) is proposed in the
object detection module, which shows comparable accuracy and improved time
efficiency to the state-of-the-art video object detector. Furthermore, in order
to mitigate the fragmented issue of tracklets in short videos, a Cross-Layer
Pointwise Siamese Network (CPSN) is proposed in the tracking module to enhance
the robustness of the appearance model. Moreover, in order to evaluate the
proposed system, two challenge datasets containing real-world short videos are
built for video object trajectory extraction and generic object
re-identification respectively. Overall, extensive experiments for each module
and the whole system demonstrate the effectiveness and efficiency of our
system.
- Abstract(参考訳): TikTokやKwaiのような短いビデオアプリケーションは、最近大ヒットした。
需要の増大とショートビデオにおける視覚情報のフル活用のためには、各ショートビデオ内のオブジェクトの位置と分析を上流タスクとして行う必要がある。
このように、数百のカテゴリと複雑な視覚効果(VFX)を持つたくさんの短いビデオで、物体の検出、追跡、再識別の精度と堅牢性を改善する方法 - 質問が発生します。
そこで本研究では,検出モジュール,トラッキングモジュール,ジェネリックオブジェクト再識別モジュールから構成されるシステムを提案する。
特に、実用的ショートビデオアプリケーションにおける高効率な要求に対して、オブジェクト検出モジュールでは、同等の精度と最新のビデオオブジェクト検出器に対する時間の効率性を示すテンポラル情報融合ネットワーク(TIFN)が提案されています。
さらに,ショートビデオにおけるトラックレットのフラグメンテーション問題を軽減するため,視認モデルのロバスト性を高めるため,トラッキングモジュールにcpsn(cross-layer pointwise siamese network)を提案する。
さらに,提案システムを評価するために,実世界のショートビデオを含む2つのチャレンジデータセットを構築し,ビデオオブジェクトの軌跡抽出と汎用オブジェクトの再同定を行う。
全体として、各モジュールおよびシステム全体の広範な実験は私達のシステムの有効性そして効率を示します。
関連論文リスト
- PerspectiveNet: Multi-View Perception for Dynamic Scene Understanding [1.2781698000674653]
PerspectiveNetは、複数のカメラビューにわたる長い記述を生成するための軽量モデルである。
提案手法では,視覚エンコーダ,コンパクトコネクタモジュール,および大規模言語モデルを用いる。
結果として得られるモデルは軽量で、効率的なトレーニングと推論を確実にします。
論文 参考訳(メタデータ) (2024-10-22T08:57:17Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。
ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:14:10Z) - A novel efficient Multi-view traffic-related object detection framework [17.50049841016045]
我々は,多視点ビデオデータを用いた効率的な物体検出を実現するために,CEVASという新しいトラフィック関連フレームワークを提案する。
その結果,本フレームワークは,最先端手法と同じ検出精度を達成しつつ,応答遅延を著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T06:42:37Z) - Spatio-Temporal Learnable Proposals for End-to-End Video Object
Detection [12.650574326251023]
本稿では、Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。
提案手法は1フレームのSparse RCNNをmAPで8%-9%改善する。
論文 参考訳(メタデータ) (2022-10-05T16:17:55Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Video Super-resolution with Temporal Group Attention [127.21615040695941]
本稿では,時間的情報を階層的に効果的に組み込む新しい手法を提案する。
入力シーケンスは複数のグループに分けられ、それぞれがフレームレートの種類に対応する。
これは、いくつかのベンチマークデータセットにおける最先端のメソッドに対して良好なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-07-21T04:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。