論文の概要: A Generic Object Re-identification System for Short Videos
- arxiv url: http://arxiv.org/abs/2102.05275v1
- Date: Wed, 10 Feb 2021 05:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:36:07.372059
- Title: A Generic Object Re-identification System for Short Videos
- Title(参考訳): ショートビデオのためのジェネリックオブジェクト再識別システム
- Authors: Tairu Qiu, Guanxian Chen, Zhongang Qi, Bin Li, Ying Shan, Xiangyang
Xue
- Abstract要約: オブジェクト検出モジュールにはTIFN(Temporal Information Fusion Network)が提案されている。
The Cross-Layer Pointwise Siamese Network (CPSN) is proposed to enhance the robustness of the appearance model。
実世界のショートビデオを含む2つの課題データセットは、ビデオオブジェクトの軌跡抽出とジェネリックオブジェクトの再同定のために構築されている。
- 参考スコア(独自算出の注目度): 39.662850217144964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short video applications like TikTok and Kwai have been a great hit recently.
In order to meet the increasing demands and take full advantage of visual
information in short videos, objects in each short video need to be located and
analyzed as an upstream task. A question is thus raised -- how to improve the
accuracy and robustness of object detection, tracking, and re-identification
across tons of short videos with hundreds of categories and complicated visual
effects (VFX). To this end, a system composed of a detection module, a tracking
module and a generic object re-identification module, is proposed in this
paper, which captures features of major objects from short videos. In
particular, towards the high efficiency demands in practical short video
application, a Temporal Information Fusion Network (TIFN) is proposed in the
object detection module, which shows comparable accuracy and improved time
efficiency to the state-of-the-art video object detector. Furthermore, in order
to mitigate the fragmented issue of tracklets in short videos, a Cross-Layer
Pointwise Siamese Network (CPSN) is proposed in the tracking module to enhance
the robustness of the appearance model. Moreover, in order to evaluate the
proposed system, two challenge datasets containing real-world short videos are
built for video object trajectory extraction and generic object
re-identification respectively. Overall, extensive experiments for each module
and the whole system demonstrate the effectiveness and efficiency of our
system.
- Abstract(参考訳): TikTokやKwaiのような短いビデオアプリケーションは、最近大ヒットした。
需要の増大とショートビデオにおける視覚情報のフル活用のためには、各ショートビデオ内のオブジェクトの位置と分析を上流タスクとして行う必要がある。
このように、数百のカテゴリと複雑な視覚効果(VFX)を持つたくさんの短いビデオで、物体の検出、追跡、再識別の精度と堅牢性を改善する方法 - 質問が発生します。
そこで本研究では,検出モジュール,トラッキングモジュール,ジェネリックオブジェクト再識別モジュールから構成されるシステムを提案する。
特に、実用的ショートビデオアプリケーションにおける高効率な要求に対して、オブジェクト検出モジュールでは、同等の精度と最新のビデオオブジェクト検出器に対する時間の効率性を示すテンポラル情報融合ネットワーク(TIFN)が提案されています。
さらに,ショートビデオにおけるトラックレットのフラグメンテーション問題を軽減するため,視認モデルのロバスト性を高めるため,トラッキングモジュールにcpsn(cross-layer pointwise siamese network)を提案する。
さらに,提案システムを評価するために,実世界のショートビデオを含む2つのチャレンジデータセットを構築し,ビデオオブジェクトの軌跡抽出と汎用オブジェクトの再同定を行う。
全体として、各モジュールおよびシステム全体の広範な実験は私達のシステムの有効性そして効率を示します。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking [36.87237664751979]
本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。
本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - VideoAssembler: Identity-Consistent Video Generation with Reference
Entities using Diffusion Model [97.99027412399198]
VideoAssemblerは、アイデンティティ一貫性のあるビデオ生成のためのエンドツーエンドフレームワークである。
VideoAssemblerは、入力参照エンティティに対してフレキシブルなビデオを作成することに長けている。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。
ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:14:10Z) - A novel efficient Multi-view traffic-related object detection framework [17.50049841016045]
我々は,多視点ビデオデータを用いた効率的な物体検出を実現するために,CEVASという新しいトラフィック関連フレームワークを提案する。
その結果,本フレームワークは,最先端手法と同じ検出精度を達成しつつ,応答遅延を著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T06:42:37Z) - Spatio-Temporal Learnable Proposals for End-to-End Video Object
Detection [12.650574326251023]
本稿では、Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。
提案手法は1フレームのSparse RCNNをmAPで8%-9%改善する。
論文 参考訳(メタデータ) (2022-10-05T16:17:55Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - Video Super-resolution with Temporal Group Attention [127.21615040695941]
本稿では,時間的情報を階層的に効果的に組み込む新しい手法を提案する。
入力シーケンスは複数のグループに分けられ、それぞれがフレームレートの種類に対応する。
これは、いくつかのベンチマークデータセットにおける最先端のメソッドに対して良好なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-07-21T04:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。