Fugu-MT 論文翻訳(概要): A Generic Object Re-identification System for Short Videos

論文の概要: A Generic Object Re-identification System for Short Videos

arxiv url: http://arxiv.org/abs/2102.05275v1
Date: Wed, 10 Feb 2021 05:45:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-11 14:36:07.372059
Title: A Generic Object Re-identification System for Short Videos
Title（参考訳）: ショートビデオのためのジェネリックオブジェクト再識別システム
Authors: Tairu Qiu, Guanxian Chen, Zhongang Qi, Bin Li, Ying Shan, Xiangyang Xue
Abstract要約: オブジェクト検出モジュールにはTIFN(Temporal Information Fusion Network)が提案されている。 The Cross-Layer Pointwise Siamese Network (CPSN) is proposed to enhance the robustness of the appearance model。実世界のショートビデオを含む2つの課題データセットは、ビデオオブジェクトの軌跡抽出とジェネリックオブジェクトの再同定のために構築されている。
参考スコア（独自算出の注目度）: 39.662850217144964
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Short video applications like TikTok and Kwai have been a great hit recently. In order to meet the increasing demands and take full advantage of visual information in short videos, objects in each short video need to be located and analyzed as an upstream task. A question is thus raised -- how to improve the accuracy and robustness of object detection, tracking, and re-identification across tons of short videos with hundreds of categories and complicated visual effects (VFX). To this end, a system composed of a detection module, a tracking module and a generic object re-identification module, is proposed in this paper, which captures features of major objects from short videos. In particular, towards the high efficiency demands in practical short video application, a Temporal Information Fusion Network (TIFN) is proposed in the object detection module, which shows comparable accuracy and improved time efficiency to the state-of-the-art video object detector. Furthermore, in order to mitigate the fragmented issue of tracklets in short videos, a Cross-Layer Pointwise Siamese Network (CPSN) is proposed in the tracking module to enhance the robustness of the appearance model. Moreover, in order to evaluate the proposed system, two challenge datasets containing real-world short videos are built for video object trajectory extraction and generic object re-identification respectively. Overall, extensive experiments for each module and the whole system demonstrate the effectiveness and efficiency of our system.
Abstract（参考訳）: TikTokやKwaiのような短いビデオアプリケーションは、最近大ヒットした。需要の増大とショートビデオにおける視覚情報のフル活用のためには、各ショートビデオ内のオブジェクトの位置と分析を上流タスクとして行う必要がある。このように、数百のカテゴリと複雑な視覚効果(VFX)を持つたくさんの短いビデオで、物体の検出、追跡、再識別の精度と堅牢性を改善する方法 - 質問が発生します。そこで本研究では,検出モジュール,トラッキングモジュール,ジェネリックオブジェクト再識別モジュールから構成されるシステムを提案する。特に、実用的ショートビデオアプリケーションにおける高効率な要求に対して、オブジェクト検出モジュールでは、同等の精度と最新のビデオオブジェクト検出器に対する時間の効率性を示すテンポラル情報融合ネットワーク(TIFN)が提案されています。さらに,ショートビデオにおけるトラックレットのフラグメンテーション問題を軽減するため,視認モデルのロバスト性を高めるため,トラッキングモジュールにcpsn(cross-layer pointwise siamese network)を提案する。さらに,提案システムを評価するために,実世界のショートビデオを含む2つのチャレンジデータセットを構築し,ビデオオブジェクトの軌跡抽出と汎用オブジェクトの再同定を行う。全体として、各モジュールおよびシステム全体の広範な実験は私達のシステムの有効性そして効率を示します。

関連論文リスト

Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos [24.03405963900272]
Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-21T11:08:14Z)
PerspectiveNet: Multi-View Perception for Dynamic Scene Understanding [1.2781698000674653]
PerspectiveNetは、複数のカメラビューにわたる長い記述を生成するための軽量モデルである。提案手法では,視覚エンコーダ,コンパクトコネクタモジュール,および大規模言語モデルを用いる。結果として得られるモデルは軽量で、効率的なトレーニングと推論を確実にします。
論文参考訳（メタデータ） (2024-10-22T08:57:17Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。 3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文参考訳（メタデータ） (2024-04-01T17:38:25Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Uncertainty Aware Active Learning for Reconfiguration of Pre-trained Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-22T17:14:10Z)
A novel efficient Multi-view traffic-related object detection framework [17.50049841016045]
我々は,多視点ビデオデータを用いた効率的な物体検出を実現するために,CEVASという新しいトラフィック関連フレームワークを提案する。その結果,本フレームワークは,最先端手法と同じ検出精度を達成しつつ,応答遅延を著しく低減することがわかった。
論文参考訳（メタデータ） (2023-02-23T06:42:37Z)
Spatio-Temporal Learnable Proposals for End-to-End Video Object Detection [12.650574326251023]
本稿では、Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。提案手法は1フレームのSparse RCNNをmAPで8%-9%改善する。
論文参考訳（メタデータ） (2022-10-05T16:17:55Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Video Super-resolution with Temporal Group Attention [127.21615040695941]
本稿では,時間的情報を階層的に効果的に組み込む新しい手法を提案する。入力シーケンスは複数のグループに分けられ、それぞれがフレームレートの種類に対応する。これは、いくつかのベンチマークデータセットにおける最先端のメソッドに対して良好なパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-07-21T04:54:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。