論文の概要、ライセンス

# (参考訳) Occluded Video Instance Segmentation [全文訳有]

Occluded Video Instance Segmentation ( http://arxiv.org/abs/2102.01558v1 )

ライセンス: CC BY 4.0
Jiyang Qi, Yan Gao, Xiaoyu Liu, Yao Hu, Xinggang Wang, Xiang Bai, Philip H.S. Torr, Serge Belongie, Alan Yuille, Song Bai(参考訳) 映像理解システムは,シーン内に重い咬合が存在する場合,物体を知覚できるのか? この質問に答えるために、OVISと呼ばれる大規模データセットを収集し、ビデオインスタンスのセグメンテーション、すなわち、インクルードされたシーンでインスタンスを検出し、セグメンテーションし、追跡します。 OVISは25のセマンティックカテゴリから296kの高品質のインスタンスマスクで構成されており、オブジェクト閉塞は通常発生します。 人間の視覚システムは文脈的推論と関連づけによってこれらを理解できるが、実験は現在の映像理解システムが満足していないことを示唆する。 OVISデータセットでは、最先端のアルゴリズムによって達成された最高のAPはわずか14.4であり、実際のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを明らかにしています。 また,閉塞による物体の欠落を補うために,時間的特徴キャリブレーションと呼ばれるプラグアンドプレイモジュールを提案する。 MaskTrack R-CNN と SipMask をベースに構築され、AP はそれぞれ 15.2 と 15.0 である。 OVISデータセットはhttp://songbai.site/ ovis でリリースされる。

Can our video understanding systems perceive objects when a heavy occlusion exists in a scene? To answer this question, we collect a large scale dataset called OVIS for occluded video instance segmentation, that is, to simultaneously detect, segment, and track instances in occluded scenes. OVIS consists of 296k high-quality instance masks from 25 semantic categories, where object occlusions usually occur. While our human vision systems can understand those occluded instances by contextual reasoning and association, our experiments suggest that current video understanding systems are not satisfying. On the OVIS dataset, the highest AP achieved by state-of-the-art algorithms is only 14.4, which reveals that we are still at a nascent stage for understanding objects, instances, and videos in a real-world scenario. Moreover, to complement missing object cues caused by occlusion, we propose a plug-and-play module called temporal feature calibration. Built upon MaskTrack R-CNN and SipMask, we report an AP of 15.2 and 15.0 respectively. The OVIS dataset is released at http://songbai.site/ ovis , and the project code will be available soon.
公開日: Tue, 2 Feb 2021 15:35:43 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Occluded Video Instance Segmentation Occluded Video Instance Segmentation 0.85
Jiyang Qi1,2*, Yan Gao2*, Yao Hu2, Xinggang Wang1, Xiaoyu Liu2, Xiang Bai1, Jiyang Qi1,2*, Yan Gao2*, Yao Hu2, Xinggang Wang1, Xiaoyu Liu2, Xiang Bai1 0.94
Serge Belongie3, Alan Yuille4, Philip H.S. Serge Belongie3, Alan Yuille4, Philip H.S. 0.84
Torr5, Song Bai2,5† Torr5、Song Bai2,5。 0.52
1Huazhong University of Science and Technology, 2Alibaba Youku Cognitive and Intelligent Lab, 1Huazhong University of Science and Technology, 2Alibaba Youku Cognitive and Intelligent Lab 0.89
3Cornell University, 4Johns Hopkins University, 5University of Oxford 3Cornell University, 4Johns Hopkins University, 5University of Oxford 0.92
1 2 0 2 b e F 3 1 2 0 2 b e F 3 0.85
] V C . ] V C。 0.79
s c [ 2 v 8 5 5 1 0 sc [ 2 v 8 5 5 1 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract Can our video understanding systems perceive objects 概要 映像理解システムは物体を知覚できるのか 0.59
when a heavy occlusion exists in a scene? 重度の閉塞がシーンに存在するとき? 0.70
To answer this question, we collect a large scale dataset called OVIS for occluded video instance segmentation, that is, to simultaneously detect, segment, and track instances in occluded scenes. この質問に答えるために、OVISと呼ばれる大規模データセットを収集し、ビデオインスタンスのセグメンテーション、すなわち、インクルードされたシーンでインスタンスを検出し、セグメンテーションし、追跡します。 0.65
OVIS consists of 296k high-quality instance masks from 25 semantic categories, where object occlusions usually occur. OVISは25のセマンティックカテゴリから296kの高品質のインスタンスマスクで構成されており、オブジェクト閉塞は通常発生します。 0.56
While our human vision systems can understand those occluded instances by contextual reasoning and association, our experiments suggest that current video understanding systems are not satisfying. 人間の視覚システムは文脈的推論と関連づけによってこれらを理解できるが、実験は現在の映像理解システムが満足していないことを示唆する。 0.68
On the OVIS dataset, the highest AP achieved by state-of-the-art algorithms is only 14.4, which reveals that we are still at a nascent stage for understanding objects, instances, and videos in a real-world scenario. OVISデータセットでは、最先端のアルゴリズムによって達成された最高のAPはわずか14.4であり、実際のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを明らかにしています。 0.57
Moreover, to complement missing object cues caused by occlusion, we propose a plugand-play module called temporal feature calibration. また,閉塞による物体の欠落を補うために,時間的特徴キャリブレーションと呼ばれるプラグアンドプレイモジュールを提案する。 0.70
Built upon MaskTrack R-CNN and SipMask, we report an AP of 15.2 and 15.0 respectively. MaskTrack R-CNN と SipMask をベースに構築され、AP はそれぞれ 15.2 と 15.0 である。 0.63
The OVIS dataset is released at http://songbai.site/ ovis, and the project code will be available soon. OVISデータセットはhttp://songbai.site/ ovisでリリースされている。 0.61
1. Introduction In the visual world, objects rarely occur in isolation. 1. はじめに 視覚の世界では、オブジェクトは孤立してほとんど発生しません。 0.66
The psychophysical and computational studies have demonstrated [31, 15] that our vision systems perceive occluded objects by means of distinguishing actual boundaries of a given object (a.k.a, intrinsic boundaries) from those caused by occlusion (a.k.a, extrinsic boundaries), and then amodally explaining away the missing object cues. 心理学と計算の研究では、[31, 15]では、視覚系が、対象物(内在的境界)と排他的境界(外在的境界)の実際の境界を区別し、失った物体の手がかりを不規則に説明することによって、隠蔽された物体を知覚することを示した。 0.69
As shown in Fig. 1, we are able to complete the intrinsic contours coarsely with contextual reasoning, and sometimes, with prior knowledge. 図に示すように。 1、私たちは文脈的な推論と、時には事前の知識で、本質的な輪郭を簡潔に完成することができます。 0.67
The question then becomes, can our video understanding ビデオの理解は可能か?」という疑問が浮かび上がってくる 0.47
*indicates equal contributions. ※平等な貢献を示す。 0.62
†Corresponding author. E-mail: songbai.site@gmail.c om 対応作家。 メール: songbai.site@gmail.c om 0.53
Figure 1. Illustrations of extrinsic (blue) and intrinsic (red) contours when object occlusions happen. 図1。 オブジェクト閉塞が起こると、外部(青)と内在(赤)輪郭のイラストレーション。 0.73
systems perceive occluded objects with comparable performance? 対等な性能を持つオブジェクトを知覚するシステム? 0.68
Our work aims to explore this matter in the context of video instance segmentation, a popular task recently proposed in [49] that targets a comprehensive understanding of objects in videos. ビデオのオブジェクトの包括的理解を目的とした[49]で最近提案された一般的なタスクである、ビデオインスタンスセグメンテーションの文脈でこの問題を探求することを目的としています。 0.63
To this end, we explore a new and challenging scenario called Occluded Video Instance Segmentation (OVIS), which requests a model to simultaneously detect, segment and track object instances in occluded scenes. この目的のために、occluded video instance segmentation(ovis)と呼ばれる新しい挑戦的なシナリオを探求し、occluded video instance segmentation(ovis)と呼ばれるモデルに対して、occludedシーンにおけるオブジェクトインスタンスの同時検出、セグメント化、追跡を要求する。
訳抜け防止モード: そのためには、Occluded Video Instance Segmentation(OVIS)と呼ばれる新しい挑戦的なシナリオを検討します。 オブジェクトインスタンスを同時に検出、セグメント化、追跡するようにモデルを要求する。
0.81
As the major contribution of this work, we collect a large scale dataset called OVIS, specifically for video instance segmentation in occluded scenes. この研究の主な貢献として、occludedシーンにおけるビデオインスタンスのセグメンテーションに特化した、ovisと呼ばれる大規模データセットを収集した。
訳抜け防止モード: この作業の主な貢献として、OVISと呼ばれる大規模なデータセットを収集します。 含まれた場面のビデオ例のセグメンテーションのために特に。
0.66
While being the second video instance segmentation dataset after YouTubeVIS [49] with 131k masks, OVIS consists of 296k highquality instance masks out of 25 commonly seen semantic categories. YouTubeVIS [49]に続く2番目のビデオインスタンスセグメンテーションデータセットで131kのマスクを持つが、OVISは25の一般的なセマンティックカテゴリのうち296kの高品質なインスタンスマスクで構成されている。 0.62
The most distinctive property of our OVIS dataset is that a large portion of objects is under various types of severe occlusions caused by different factors (see Fig. OVISデータセットの最も特徴的な特徴は、物体の大部分が様々な要因によって引き起こされる重篤な閉塞の下にあることである(図参照)。 0.75
2 for different types). 異なったタイプのための2)。 0.60
Therefore, OVIS is a useful testbed to evaluate video instance segmentation models for dealing with heavy object occlusions. したがって、OVISは重いオブジェクトの隠蔽を扱うためのビデオインスタンスセグメンテーションモデルを評価するのに有用なテストベッドである。 0.62
1 Extrinsic boundariesIntrinsic boundaries 1 内的境界内的境界 0.78
英語(論文から抽出)日本語訳スコア
Figure 2. Various types of occlusions in OVIS. 図2。 OVISのさまざまなタイプの閉塞。 0.73
Full occlusion means the object totally disappears in some frames, while partial occlusion means that a part of the object is occluded. 完全な閉塞は、あるフレーム内でオブジェクトが完全に消失することを意味し、一方部分閉塞は、オブジェクトの一部が閉塞されることを意味する。 0.60
The causes of occlusions include objects, backgrounds, and frame boundaries. 閉塞の原因には、オブジェクト、背景、フレーム境界が含まれる。 0.76
To dissect to dissect―dissect 0.49
the OVIS dataset, we conduct a thorough evaluation of 5 state-of-the-art algorithms whose code is publicly available, including FEELVOS [38], IoUTracker+ [49], MaskTrack R-CNN [49], SipMask [4], and STEm-Seg [1]. OVISデータセットは、FEELVOS[38]、IoUTracker+[49]、MaskTrack R-CNN [49]、SipMask [4]、STEm-Seg [1]を含む、コードが公開されている5つの最先端アルゴリズムを徹底的に評価する。 0.72
However, the experimental results suggest that current video understanding systems fall behind the capability of human beings in terms of occlusion perception. しかし, 実験結果から, 現在の映像理解システムは, 隠蔽知覚の点で人間の能力に遅れがあることが示唆された。 0.68
The highest AP is only 14.4 achieved by [1]. 最高 ap は [1] で達成されるのはわずか 14.4 である。 0.65
In this sense, we are still far from deploying those techniques into practical applications, especially considering the complexity and diversity of scenes in the real visual world. この意味では、実世界におけるシーンの複雑さと多様性を考えると、これらのテクニックを実践的な応用に展開するには程遠い。 0.71
To address the occlusion issue, we also propose a simple baseline module called temporal feature calibration. 咬合問題に対処するため,時間的特徴校正と呼ばれる単純なベースラインモジュールも提案する。 0.72
For a given query frame in a video, we resort to a reference frame to complement its missing object cues. ビデオ内のあるクエリフレームに対して、その欠落したオブジェクトキューを補完するために参照フレームを使用します。 0.69
Specifically, the proposed module learns a calibration offset for the reference frame with the guidance of the query frame, and then the offset is used to adjust the feature embedding of the reference frame via deformable convolution [8]. 具体的には、提案モジュールは、クエリフレームのガイダンスで参照フレームのキャリブレーションオフセットを学習し、そのオフセットを使用して、変形可能な畳み込み[8]を介して参照フレームの特徴埋め込みを調整する。 0.69
The refined reference embedding is used in turn to assist the object recognition of the query frame. 洗練された参照埋め込みは、クエリフレームのオブジェクト認識を支援するために使用される。 0.72
Our module is a highly flexible plug-in. 当社のモジュールは非常に柔軟なプラグインです。 0.68
While applied to MaskTrack R-CNN [49] and SipMask [4] respectively, we report an AP of 15.2 and 15.0, significantly outperforming the corresponding baselines by 2.6 and 2.9 in AP respectively. MaskTrack R-CNN [49]とSipMask [4]にそれぞれ適用しながら、APは15.2と15.0であり、APでは2.6と2.9で対応するベースラインを大幅に上回っている。 0.60
To summarize, our contributions are three-fold: まとめると、私たちの貢献は3倍です。 0.53
• We advance video instance segmentation by releasing a new benchmark dataset named OVIS (short for Occluded Video Instance Segmentation). • OVIS(Occluded Video Instance Segmentationの略)という新しいベンチマークデータセットをリリースし、ビデオインスタンスのセグメンテーションを進めます。 0.83
OVIS is designed with the philosophy of perceiving object occlusions in videos, which could reveal the complexity and the diversity of real-world scenes. OVISは、現実世界のシーンの複雑さと多様性を明らかにすることができるビデオのオブジェクト閉塞を知覚する哲学で設計されています。 0.68
• We streamline the research over the OVIS dataset by conducting a comprehensive evaluation of 5 state-ofthe-art video instance segmentation algorithms, which could be a baseline reference for future research in OVIS. • 今後のOVIS研究の基準となる5つの最先端ビデオインスタンスセグメンテーションアルゴリズムを総合的に評価することにより,OVISデータセットに関する研究の合理化を図る。 0.81
• We propose a plug-and-play module to alleviate the • 緩和するためのプラグアンドプレイモジュールを提案する。 0.69
occlusion issue. While applied to MaskTrack RCNN [49], we report an AP of 15.2 on OVIS and 32.1 on YouTube-VIS respectively, outperforming a series of state-of-the-art methods. 閉塞問題だ MaskTrack RCNN [49]に適用中、OVISで15.2、YouTube-VISで32.1のAPをそれぞれ報告し、一連の最新手法を上回っています。 0.57
When applied to SipMask [4], we report a AP of 15.0 on OVIS and 35.0 on YouTube-VIS. SipMask [4]に適用すると、OVISで15.0、YouTube-VISで35.0のAPが報告される。 0.70
2. Related Work Our work focuses on Video Instance Segmentation in occluded scenes. 2. 関連作品 私たちの仕事は、ビデオインスタンスセグメンテーションに焦点を合わせています。 0.70
The most relevant work to ours is [49], which formally defines the concept of video instance segmentation and releases the first dataset called YouTube-VIS. ビデオインスタンスのセグメンテーションの概念を公式に定義し、YouTube-VISと呼ばれる最初のデータセットをリリースしています。
訳抜け防止モード: 最も関係のある研究は [ 49 ] です。 ビデオインスタンスのセグメンテーションの概念を正式に定義し、YouTube - VISと呼ばれる最初のデータセットをリリースする。
0.69
Built upon the large-scale video object segmentation dataset YouTube-VOS [47], the YouTube-VIS dataset contains a total of 2,883 videos, 4,883 instances, and 131k masks in 40 categories. 大規模なビデオオブジェクトセグメンテーションデータセットYouTube-VOS [47]に基づいて構築されたYouTube-VISデータセットには、合計2,883ビデオ、4,883インスタンス、および40のカテゴリで131kマスクが含まれています。 0.65
Compared with the YouTube-VIS dataset, OVIS aims to construct a more challenging video instance segmentation dataset with severe occlusions. YouTube-VISデータセットと比較すると、OVISは厳しい閉塞を伴うより困難なビデオインスタンスセグメンテーションデータセットの構築を目指している。 0.69
Since the release of the YouTube-VIS dataset, video instance segmentation has attracted great attention in the computer vision community, arising a series of algorithms recently [49, 4, 1, 2, 27, 30, 41, 11]. YouTube-VISデータセットのリリース以来、ビデオインスタンスのセグメンテーションはコンピュータビジョンコミュニティにおいて大きな注目を集めており、最近一連のアルゴリズム(49, 4, 1, 2, 27, 30, 41, 11]が生まれている。 0.82
MaskTrack R-CNN [49] is the first unified model for video instance segmentation. MaskTrack R-CNN [49]はビデオインスタンスのセグメンテーションのための最初の統一モデルです。 0.70
It achieves video instance segmentation by adding a tracking branch to the popular image instance segmentation method Mask R-CNN [13]. 人気の画像インスタンスセグメンテーションメソッドMask R-CNN[13]にトラッキングブランチを追加することにより、ビデオインスタンスセグメンテーションを実現する。 0.71
Lin et al. [27] propose a modified variational auto-encoder architecture built on the top of Mask R-CNN. リンら。 27] Mask R-CNN上に構築された変形型自動エンコーダアーキテクチャを提案する。 0.57
MaskProp [2] is also a video extension of Mask RCNN which adds a mask propagation branch to propagate masks to adjacent frames, and then tracks instances by the propagated masks. MaskProp [2]はMask RCNNのビデオ拡張で、隣接するフレームにマスクを伝搬するマスク伝搬ブランチを追加し、プロパゲートされたマスクによってインスタンスを追跡する。 0.80
SipMask [4] extends single-stage image instance segmentation to the video level by adding a fully-convolutional branch for tracking instances. SipMask [4]は、インスタンスを追跡するための完全な畳み込みブランチを追加することで、単一ステージの画像インスタンスのセグメンテーションをビデオレベルまで拡張する。
訳抜け防止モード: SipMask [ 4 ] はシングルステージイメージインスタンスのセグメンテーションをビデオレベルに拡張する 完全な畳み込みブランチを追加して、インスタンスを追跡する。
0.77
Different from those top-down methods, STEm-Seg [1] proposes a bottom-up method, which performs video instance segmentation by clustering the pixels of the same instance. これらのトップダウン方法とは異なり、STEm-Seg [1]は、同じインスタンスのピクセルをクラスタリングしてビデオインスタンスのセグメンテーションを実行するボトムアップ方式を提案する。 0.58
Our method adopts MaskTrack R-CNN [49] and SipMask [4] as the baselines, and endows them with the ability to alleviate object occlusions. 本手法では,MaskTrack R-CNN [49] と SipMask [4] をベースラインとして,オブジェクトの閉塞を緩和する機能を備えている。 0.77
By adding the proposed feature calibra- 提案された特徴カリブラの追加により- 0.41
2 Occlusionsbybackgrou ndsOcclusionsbyobjec tsOcclusionsbybounda riesPartial occlusionsFull occlusionsTimeTime 2 occlusions bybackgroundsocclusi ons byobjectsocclusions byboundariespartial occlusionsfull occlusionstime 0.70
英語(論文から抽出)日本語訳スコア
tion module, the performance is significantly improved in occluded scenes. 構成モジュール、性能は隠された場面でかなり改善されます。 0.65
Meanwhile, our work is also relevant to several other 一方 私たちの作品は 他のいくつかの作品にも関係しています 0.45
tasks, including: Video Object Segmentation. を含むタスク:ビデオオブジェクトセグメンテーション。 0.68
Video object segmentation (VOS) is a popular task in video analysis. ビデオオブジェクトセグメンテーション(VOS)は、ビデオ分析における一般的なタスクです。 0.72
According to whether to provide the mask for the first frame, VOS can be divided into semi-supervised and unsupervised scenarios. 第1フレームのマスクを提供するかどうかによって、VOSは半教師なしシナリオと教師なしシナリオに分けられる。 0.58
Semi-supervised VOS [40, 19, 25, 34, 16, 18, 35, 26] aims to track and segment a given object with a mask. 半監視されたVOS [40, 19, 25, 34, 16, 18, 35, 26] は、特定のオブジェクトをマスクで追跡およびセグメント化することを目指している。 0.68
Many Semi-supervised VOS methods [40, 19, 25] adopt an online learning manner which fine-tunes the network on the mask of the first frame during inference. 多くのSemi-supervised VOSメソッド[40, 19, 25]は、推論中に最初のフレームのマスク上でネットワークを微調整するオンライン学習方法を採用しています。 0.75
Recently, some other works [34, 16, 18, 35, 26] aim to avoid online learning for the sake of faster inference speed. 最近、他の作品[34, 16, 18, 35, 26]は、より高速な推論速度のためにオンライン学習を避けることを目的としています。 0.72
Unsupervised VOS methods [24, 42, 37] aim to segment the primary objects in a video without the first frame annotations. 教師なしvosメソッド [24, 42, 37] 最初のフレームアノテーションなしでビデオ内の主要なオブジェクトをセグメンテーションすることを目的としています。
訳抜け防止モード: 教師なし VOS メソッド[24, 42, 37 ] 目的 最初のフレームアノテーションを使わずに、主要なオブジェクトをビデオに分割する。
0.78
Different from video instance segmentation that needs to classify objects, both unsupervised and semi-supervised VOS does not distinguish semantic categories. オブジェクトを分類する必要があるビデオインスタンスのセグメンテーションとは異なり、非監視と半監督の両方のVOSはセマンティックカテゴリを区別しません。 0.67
Video Semantic Segmentation. ビデオセマンティックセグメンテーション。 0.61
Video semantic segmentation requires semantic segmentation for each frame in a video. ビデオセマンティックセグメンテーションは、ビデオの各フレームにセマンティックセグメンテーションを必要とする。 0.76
LSTM [10], GRU [33], and optical flow [52] are introduced to leverage temporal contextual information for more accurate or faster video semantic segmentation. lstm[10], gru[33], および光フロー[52]を導入し, 映像意味セマンティクスの精度や高速化のために, 時間的文脈情報を活用する。 0.76
Video semantic segmentation does not require distinguishing instances and tracking objects across frames. ビデオセマンティクスのセグメンテーションは、フレーム間でインスタンスとオブジェクトを区別する必要はありません。 0.63
Video Panoptic Segmentation. ビデオパンオプティカルセグメンテーション。 0.70
Dahun et al. [20] define a video extension of panoptic segmentation [21], which requires generating consistent panoptic segmentation, and in the meantime, associating instances across frames. Dahunら。 [20]は、一貫したパノスコープセグメンテーションを生成する必要のあるパノスコープセグメンテーション[21]のビデオ拡張を定義し、その間、フレーム間でインスタンスを関連付ける。 0.62
Multi-Object Tracking and Segmentation. マルチオブジェクト追跡とセグメンテーション。 0.84
Multi-object tracking and segmentation (MOTS) [39] task extends MultiObject Tracking (MOT) [36] from a bounding box level to a pixel level. multi-object tracking and segmentation (mots) [39] タスクは、マルチオブジェクトトラッキング (mot) [36] をバウンディングボックスレベルからピクセルレベルに拡張する。 0.89
Paul et al. [39] release the KITTI MOTS and MOTSChallenge dataset, and propose Track R-CNN that extends Mask R-CNN by 3D convolutions to incorporate temporal context and an extra tracking branch for object tracking. ポールなど。 39] KITTI MOTSとMOTSChallengeデータセットをリリースし、3D畳み込みによるマスクR-CNNを拡張するトラックR-CNNを提案します。
訳抜け防止モード: ポールなど。 39 ] KITTI MOTS と MOTSChallenge データセットをリリースする。 3次元畳み込みによりマスクR-CNNを拡張するトラックR-CNNの提案 時間的コンテキストと、オブジェクト追跡のための追加のトラッキングブランチを組み込む。
0.57
Xu et al. [48] release the ApolloScape dataset which provides more crowded scenes and proposes a new track-by-points paradigm. xuなど。 より混み合ったシーンを提供するApolloScapeデータセットをリリースし、新しいトラックバイポイントパラダイムを提案する。 0.50
Our work is of course relevant to some image-level recognition tasks, such as semantic segmentation [29, 6, 7], instance segmentation [13, 17, 22], panoptic segmentation [21, 46, 23], large vocabulary instance segmentation [12, 44], etc. セマンティックセグメンテーション[29, 6, 7],インスタンスセグメンテーション[13, 17, 22],汎視セグメンテーション[21, 46, 23],大語彙インスタンスセグメンテーション[12, 44]など,画像レベルの認識タスクには当然関連しています。
訳抜け防止モード: 私たちの仕事は、もちろんいくつかの画像 - レベル認識タスクに関連しています。 セマンティックセグメンテーション [29, 6, 7 ] などです。 インスタンスセグメンテーション [13, 17, 22 ], パノラマセグメンテーション [21, 21] 46, 23 ], 大語彙インスタンスセグメンテーション [12, 44 ] など。
0.76
3. OVIS Dataset 3. OVISデータセット 0.81
Given an input video, video instance segmentation requires detecting, segmenting, and tracking object instances simultaneously from a predefined set of object categories. 入力されたビデオでは、ビデオインスタンスのセグメンテーションは、あらかじめ定義されたオブジェクトカテゴリのセットから同時にオブジェクトインスタンスを検出し、セグメンテーションし、追跡する必要があります。
訳抜け防止モード: 入力ビデオの場合、ビデオインスタンスのセグメンテーションが必要である 事前に定義されたオブジェクトカテゴリのセットからオブジェクトインスタンスを検出し、セグメンテーションし、追跡する。
0.70
Figure 3. Number of instances per category in the OVIS dataset. 図3。 OVISデータセット内のカテゴリごとのインスタンス数。 0.75
An algorithm is supposed to output the class label, confidence score, and a sequence of binary masks of each instance. アルゴリズムは、各インスタンスのクラスラベル、信頼スコア、およびバイナリマスクのシーケンスを出力する。
訳抜け防止モード: アルゴリズムが想定されています クラスラベル、信頼スコア、各インスタンスのバイナリマスクのシーケンスを出力します。
0.68
The focus of this work is on collecting a large scale benchmark dataset for video instance segmentation with severe object occlusions. この研究の焦点は、重度のオブジェクト閉塞を伴うビデオインスタンスセグメンテーションのための大規模ベンチマークデータセットの収集である。 0.82
In this section, we mainly review the data collection process, the annotation process, and the dataset statistics. 本稿では,主にデータ収集プロセス,アノテーションプロセス,およびデータセット統計についてレビューする。 0.79
3.1. Video Collection 3.1. ビデオコレクション 0.76
We begin with 25 semantic categories, including Person, Bird, Cat, Dog, Horse, Sheep, Cow, Elephant, Bear, Zebra, Giraffe, Poultry, Giant panda, Lizard, Parrot, Monkey, Rabbit, Tiger, Fish, Turtle, Bicycle, Motorcycle, Airplane, Boat, and Vehicle. 私たちは、Person, Bird, Cat, Dog, Horse, Sheep, Cow, Elephant, Bear, Zebra, Giraffe, Poultry, Giant panda, Lizard, Parrot, Monkey, Rabbit, Tiger, Fish, Turtle, Bicycle, Motorcycle, Airplane, Boat, and Vehicleを含む25のセマンティックカテゴリから始めます。 0.89
The categories are carefully chosen mainly for three motivations: 1) most of them are animals, because movement will lead to severe occlusions, 2) they are commonly seen in our life, 3) these categories have a high overlap with popular large-scale image instance segmentation datasets [28, 12] so that models trained on those datasets are easier to be transferred. これらのカテゴリーは、主に3つのモチベーションのために慎重に選択される:1) 動物、(移動が重篤な閉塞を引き起こすため) 生活の中で一般的に見られること、3) それらのカテゴリは、一般的な大規模画像インスタンスのセグメンテーションデータセット [28, 12] と高い重なり合いを持ち、これらのデータセットで訓練されたモデルを転送しやすくする。 0.72
The number of instances per category is given in Fig. カテゴリごとのインスタンス数は図で示されています。 0.75
3. As the dataset is to study the capability of our video understanding systems to perceive occlusions, we ask the annotation team to 1) exclude those videos, where only one single object stands in the foreground; 2) exclude those videos with a clean background; 3) exclude those videos, where the complete contour of objects is visible all the time. 3. データセットは、咬合を知覚するビデオ理解システムの能力を研究するため、アノテーションチームに対して、1)前景に1つのオブジェクトしか存在しないビデオは除外する、2)クリーンな背景を持つビデオは除外する、3)オブジェクトの完全な輪郭が常に見えるビデオは除外する、といったように求めます。 0.82
In the meantime, ensure that each video shall have at least one occlusion type out of occlusion by object, occlusion by backgrounds, and occlusion by boundaries (see Fig. その間、各動画がオブジェクトによる閉塞、背景による閉塞、境界による閉塞から少なくとも1つの閉塞型を有することを保証する(図参照)。 0.75
2 for illustrations). Some other objective rules include: 1) video length is generally between 5s and 60s, and 2) video resolution is generally 1920 × 1080; イラストは2)。 1)ビデオの長さは一般的に5sと60sの間であり、2)ビデオ解像度は一般に1920×1080です。 0.71
After applying the objective rules, the annotation team delivers 8,644 video candidates and our research team only accepts 901 videos after a careful re-check. 客観的なルールを適用した後、アノテーションチームは8,644の動画候補を配信し、我々の研究チームは慎重に再チェックした後のみ901の動画を受け取ります。 0.57
It should be mentioned that due to the stringent standard of video collection, the pass rate is as low as 10%. ビデオコレクションの厳格な標準のため、パスレートが10%以下であることには注意が必要だ。 0.65
3 PersonFishVehicalHor seSheepZebraRabbitBi rdPoultryElephantMot orcycleDogMonkeyBoat TurtleCatCowParrotBi cycleGiraffeTigerGia nt pandaAirplaneBearLiz ard0200400600800Numb er of instances 3 personfishvehical horsesheepzebrarabbi tbirdpoultryelephant motorcycledogmonkeyb oatturtlecatcowparro tbicyclegiraffetiger giant pandaairplanebearliz ard0200400600800例 0.45
英語(論文から抽出)日本語訳スコア
Dataset Masks Categories Videos Instances Video duration (s) Instance duration (s) mBOR(cid:63) Objects per frame Instances per video Dataset Masks Categories Videos Instances Video duration (s) Instance duration (s) mBOR(cid:63) Objects per frame Instances per video 0.92
YouTube-VIS OVIS (ours) 296k 25 901 5,223 12.77 10.05 0.22 4.72 5.80 YouTube-VIS OVIS 296k 25 901 5,223 12.77 10.05 0.22 4.72 5.80 0.63
131k 40 2,883 4,883 4.63 4.47 0.07 1.64 1.69 131k 40 2,883 4,883 4.63 4.47 0.07 1.64 1.69 0.47
Table 1. Comparing OVIS with YouTube-VIS in terms of statistics. 表1。 OVISとYouTube-VISを統計的に比較。 0.79
See Eq. (1) for the definition of mBOR. Eqを参照。 1) mBOR の定義。 0.61
(cid:63) means the value of YouTube-VIS is estimated from the training set. (cid:63)は、トレーニングセットからYouTube-VISの値を推定することを意味する。 0.65
3.2. Annotation Given an accepted video, the annotation team is asked to exhaustively annotate all the objects belonging to the predefined category set. 3.2. 注釈 受け入れられたビデオがあれば、アノテーションチームは事前に定義されたカテゴリセットに属するすべてのオブジェクトに完全に注釈を付けるように求められます。
訳抜け防止モード: 3.2. 注釈 ビデオが受理されたら、アノテーションチームが尋ねられる 定義済みのカテゴリ集合に属する全てのオブジェクトを徹底的に注釈付けします。
0.70
Each object is given an instance identity and a class label. 各オブジェクトにはインスタンスIDとクラスラベルが与えられます。 0.80
In addition to some common rules (e.g., no ID switch, mask fitness ≤1 pixel), the annotation team is trained with several criteria particularly about occlusions: 1) if an existing object disappears because of full occlusions, then re-appears, the instance identity should keep the same; 2) if a new instance appears in an in-between frame, a new instance identity is needed; and 3) the case of “object re-appears” and “new instances” should be distinguishable by you after you watch the contextual frames therein. いくつかの一般的なルール(例えば、idスイッチなし、マスクの適合度 ≤1ピクセル)に加えて、アノテーションチームは、特にオクルージョンに関するいくつかの基準でトレーニングされている。 1) 既存のオブジェクトが完全なオクルージョンのために消えて、再び現れると、インスタンスのアイデンティティが同じになる。2) インインターフレームに新しいインスタンスが現れる場合、新しいインスタンスのアイデンティティが必要であり、3) コンテキストフレームを見た後に、"object re-appears" と "new instance" のケースを区別できる。 0.78
All the videos are annotated per 5 frames, which results in that the granularity ranges from 3 to 6 fps. すべてのビデオは5フレームごとに注釈付けされており、その結果、粒度は3から6 fpsの範囲になります。 0.76
Each video is handled by one annotator to get the initial annotation, and the initial annotation is then passed to another annotator to check and correct if necessary. 各ビデオはアノテータが初期アノテーションを取得するために処理され、最初のアノテーションは必要に応じて別のアノテータに渡され、チェックと修正が行われる。 0.69
The final annotations will be examined by our research team and sent back for revision if deemed below the required quality. 最終的な注釈は私達の研究チームによって調査され、必要な質の下で考慮されたら修正のために送り返されます。 0.56
While being designed for video instance segmentation, it should be noted that OVIS is also suitable for evaluating video object segmentation in either a semi-supervised or unsupervised fashion, and object tracking since the boundingbox annotation is also provided The relevant experimental settings will be explored as part of our future work. ビデオインスタンスのセグメンテーション用に設計されている間、OVISは、半監視または非監視の方法でビデオオブジェクトのセグメンテーションを評価するのにも適しており、バウンディングボックスアノテーションも提供されるのでオブジェクト追跡にも適していることに注意してください。 0.73
3.3. Dataset Statistics 3.3. データセット統計 0.75
As YouTube-VIS [49] is the only dataset that is specifically designed for video instance segmentation nowadays, we analyze the data statistics of our OVIS dataset with YouTube-VIS as a reference in Table 1. YouTube-VIS [49]はビデオインスタンスのセグメンテーション用に特別に設計された唯一のデータセットであるため、表1の参照としてYouTube-VISを使用してOVISデータセットのデータ統計を分析します。 0.73
Note that some statistics, marked with (cid:63), of YouTube-VIS is only calculated from the training set because only the annotation of the training set is publicly available. YouTube-VIS の (cid:63) にマークされたいくつかの統計は、トレーニングセットのアノテーションのみが公開されているため、トレーニングセットからのみ計算される。 0.71
Nevertheless, considering the training set occupies 78% of the whole dataset, those statistics could still reflect the properties of YouTubeVIS roughly. それでも、データセット全体の78%を占めるトレーニングセットを考えると、これらの統計はYouTubeVISの特性を概ね反映する可能性がある。 0.66
(a) (c) (b) (a) (c) (b) 0.85
(d) Figure 4. Comparison of OVIS with YouTube-VIS, including the distribution of instance duration (a), BOR (b), the number of instances per video (c), and the number of objects per frame (d) (d) 図4。 OVISとYouTube-VISの比較では、インスタンス長(a)、BOR(b)、ビデオ毎のインスタンス数(c)、フレーム毎のオブジェクト数(d)が示されている。 0.76
Figure 5. Visualization of occlusions with different BOR values. 図5。 BOR値の異なるオクルージョンの可視化 0.70
In terms of basic and high-level statistics, OVIS contains 296k masks and 5,223 instances, which is larger than YouTube-VIS that has 131k masks and 4,883 instances. OVISには296kマスクと5,223のインスタンスがあり、131kマスクと4,883インスタンスのYouTube-VISよりも大きい。 0.64
Nonetheless, OVIS has fewer videos than YouTube-VIS as our design philosophy favors long videos and instances so as to preserve enough motion and occlusion scenarios. それにもかかわらず、ovisはyoutube-visよりビデオが少ない。私たちのデザイン哲学は、十分な動きと閉塞シナリオを維持するために、長いビデオとインスタンスを好む。
訳抜け防止モード: それでもOVISはYouTubeよりビデオが少ない - VISもそう 我々のデザイン哲学は 十分な動きと排他的シナリオを維持するために 長いビデオと 例を好んでる
0.65
As is shown, the average video duration and the average instance duration of OVIS are 12.77s and 10.05s respectively. 示すように、OVISの平均ビデオ長と平均インスタンス長はそれぞれ12.77秒と10.05秒である。 0.68
Fig. 4(a) presents the distribution of instance duration, which shows that all instances in YouTube-VIS last less than 6s. フィギュア。 4(a)は、YouTube-VISのすべてのインスタンスが6秒未満であることを示すインスタンス持続時間の分布を示す。 0.56
Long videos and instances increase the difficulty of tracking and the ability of long-term tracking is required. 長いビデオやインスタンスは追跡の困難さを増大させ、長期追跡の能力が必要である。 0.76
As for object occlusions, it is somewhat problematic to quantitatively measure the degree. 物体の閉塞については、程度を定量的に測定することはやや問題である。 0.58
To remedy this, we define a metric named Bounding-box Occlusion Rate (BOR). これを解決するために、BOR(Bounding-box Occlusion Rate)というメトリクスを定義します。 0.58
Given a video frame with N objects denoted by bounding boxes {B1, B2, . バウンディングボックス {B1, B2, .} で示される N オブジェクトを持つビデオフレームを与える。 0.77
. . , BN}, we compute the BOR for this frame as . . BN} では、このフレームの BOR を計算します。 0.82
BOR = , (1) BOR = , (1) 0.85
|(cid:83) (cid:84) Bj| |(cid:83) (cid:84) Bj| 0.79
|(cid:83) 1≤i<j≤N Bi 1≤i≤N Bi| |(cid:83) 1≤i<j≤N Bi 1≤i≤N Bi| 0.68
where the numerator means the area sum of the intersection between any two or more bounding boxes. 数字は2つ以上の有界箱の間の交差点の面積の合計を意味する。 0.72
In other words, we exclude those positions which only appear in an individual bounding box. 言い換えれば、個々のバウンディングボックスにのみ現れるような位置は除外するということです。 0.66
The denominator means the area 分母は地域を意味する 0.68
4 0204060Instance duration (s)01020Instances (%)YouTube-VISOVIS0. 00.20.40.60.81.0BOR0 510Probability densityYouTube-VISOV IS0510152025Number of instances per video02040Videos (%)YouTube-VISOVIS05 10152025Number of objects per frame02040Frames (%)YouTube-VISOVIS0. 17=0.51= 4 0204060Instance period (s)01020Instances (%)YouTube-VISOVIS0. 00.20.40.60.81.0BOR0 510Probability densityYouTube-VISOV IS0510152025Number of instance per video02040Videos (%)YouTube-VISOVIS05 10152025Number of objects per frame02040Frames (%)YouTube-VISOVIS0. 17=0.51 0.66
英語(論文から抽出)日本語訳スコア
Figure 6. The pipeline of temporal feature calibration, which can be inserted into different video instance segmentation models by changing the prediction head. 図6。 予測ヘッドを変更することで、異なるビデオインスタンスセグメンテーションモデルに挿入できる時間的特徴キャリブレーションのパイプライン。
訳抜け防止モード: 図6。 時間的特徴のキャリブレーションのパイプライン 予測ヘッドを変更することで、異なるビデオインスタンスセグメンテーションモデルに挿入することができる。
0.78
We verify this flexibility using MaskTrack R-CNN and SipMask in our experiments. 実験では,MaskTrack R-CNNとSipMaskを用いて,この柔軟性を検証する。 0.63
of the union of all the bounding boxes. 全てのバウンディングボックスの結合についてです 0.58
An illustration is given in Fig. イラストは図で示されています。 0.65
5, which shows the larger the BOR value is, the heavier the occlusion is. この値から,BOR値が大きいほど,咬合が重くなることがわかった。 0.53
Then we utilize mBOR, the average value of BORs of all the frames in a dataset (frames that do not contain any objects are ignored), to characterize the dataset in terms of the occlusion. 次に、データセット内のすべてのフレームの平均値であるmBOR(オブジェクトを含まないフレームは無視される)を使用して、閉塞の点からデータセットを特徴づけます。 0.80
As shown in Table 1, the mBOR of OVIS is 0.22, much higher than that of YouTube-VIS 0.07. 表1に示すように、OVISのmBORは0.22で、YouTube-VIS 0.07よりもはるかに高い。 0.73
The BOR distribution is further compared in Fig. BOR分布は図でさらに比較されます。 0.81
4(b). As can be seen, most frames in YouTube-VIS are located in the region where BOR ≤ 0.1 and a small number of frames’ BOR are greater than 0.1. 4(b)。 ご覧のように、YouTube-VISのほとんどのフレームは、BOR ≤ 0.1および少数のフレームのBORが0.1より大きい領域に位置しています。 0.79
In comparison, the BOR of about half frames in OVIS is no less than 0.2. 比較すると、OVISの約半フレームのBORは0.2以下である。 0.77
It supports the focus of our work, that is, to explore the ability of video instance segmentation models in handling occlusion scenes. 咬合シーンの処理におけるビデオインスタンスセグメンテーションモデルの能力を探求するために、私たちの作業の焦点をサポートします。 0.75
However, it should be mentioned here that BOR cannot involve all the occlusion types shown in Fig. ただし、ここでは、BORは図に示すすべての閉塞タイプを含まないことを言及する必要があります。 0.60
2, but is mainly targeted at occlusion by objects. 主にオブジェクトによる閉塞を対象としている。 0.58
Therefore, mBOR could serve as an effective indicator for occlusion degrees, but only reflect the occlusion degree in a partial or rough way. したがって、mBORは閉塞度の効果的な指標として機能するが、部分的または粗い方法で閉塞度を反映するのみである。 0.59
In addition to long videos&instances and severe occlusions, OVIS features crowded scenes, which is a natural effect of heavy occlusions. 長いビデオ&インスタンスと厳しい閉塞に加えて、OVISは、重い閉塞の自然な効果である混雑したシーンを備えています。 0.59
OVIS has 5.80 instances per video and 4.72 objects per frame, while those two values are 1.69 and 1.64 respectively in YouTube-VIS. OVISはビデオあたり5.80インスタンスとフレームあたり4.72オブジェクトを持ち、YouTube-VISではそれぞれ1.69と1.64である。 0.66
The comparison of the two distributions is further depicted in Fig. 2つの分布の比較は Fig でさらに示されている。 0.85
4(c) and Fig. 4(d). 4(c)および図。 4(d)。 0.78
4. Proposed Approach We build our method based on MaskTrack R-CNN [49], considering it is the official baseline approach released along with the YouTube-VIS dataset while being a representative of algorithms in this field. 4. 提案手法 本手法は,この分野におけるアルゴリズムの代表であると同時に,YouTube-VISデータセットとともにリリースされた公式ベースラインアプローチであると考え,MaskTrack R-CNN [49]に基づいて構築した。 0.76
In this section, we first revisit MaskTrack R-CNN briefly, then elaborate the details of our method. 本稿では,まずまずMaskTrack R-CNNを再検討し,その方法について詳しく述べる。 0.76
Note that our method is also compatible with other video instance segmentation models (e.g., Sip- 本手法は他のビデオインスタンスセグメンテーションモデル(sipなど)とも互換性がある。 0.76
Mask [4]) and refer to the experiments for details. マスク [4]) 詳細については、実験を参照してください。 0.72
4.1. MaskTrack R-CNN Revisited 4.1. MaskTrack R-CNNが再訪 0.67
Based on Mask R-CNN [13], MaskTrack R-CNN fulfills video instance segmentation by leveraging four branches. MaskTrack R-CNN[13]に基づいて、4つのブランチを活用することで、ビデオインスタンスのセグメンテーションを実現する。 0.58
Basically, the three branches for object classification, bounding box regression, and mask generation keep the same as Mask R-CNN, which are applied to every single frame. 基本的に、オブジェクト分類、境界ボックス回帰、マスク生成の3つの分岐は、すべてのフレームに適用されるMask R-CNNと同じである。 0.78
The fourth tracking branch is responsible for tracking objects across frames. 第4のトラッキングブランチは、フレームを越えたオブジェクトを追跡する責務を負う。 0.62
Suppose there are N instances identified from previous frames, the candidate box i in the current frame will be assigned to the label n, with the assignment probability defined as 前のフレームから識別された n 個のインスタンスがある場合、現在のフレームの候補ボックス i はラベル n に割り当てられ、割り当て確率は次のように定義される。 0.77
n ∈ [1, N ] n ∈ [1, N ] 0.85
n = 0 fj fj n = 0 fj fj 0.85
(2) i  ef T (2) 私は 略称はT。 0.65
1+(cid:80)N 1+(cid:80)N 1+(cid:80)N 1+(cid:80)N 0.76
i fn j=1 ef T 1 j=1 ef T i fn j=1 ef T 1 j=1 ef T 0.84
i pi(n) = 私は pi(n) = 0.69
where 1 ≤ n ≤ N indicates the candidate is associated to one of the N instances and n = 0 means the candidate is treated as a new identity. 1 ≤ n ≤ N は候補が N インスタンスの 1 つに関連付けられていることを示し、n = 0 は候補が新しい同一性として扱われることを意味する。 0.73
fi and fj (j ∈ [1, N ]) denote the feature embedding of the candidate and the N pre-identified instances, respectively. fi と fj (j ∈ [1, N ]) は、それぞれ、候補と N の事前識別インスタンスの機能埋め込みを表している。
訳抜け防止モード: fi と fj (j ∈ [ 1, N ] ) は、候補の特徴埋め込みを表す and the N pre- identified instance, respectively。
0.87
The cross-entropy loss is used here in a way of multi-class classification. クロスエントロピー損失は、多クラス分類の方法で用いられる。 0.69
The overall training loss function used is a combination of the Mask R-CNN losses and the tracking loss. 使用される全体的な訓練の損失機能はマスクR-CNNの損失および追跡の損失の組合せです。 0.76
During inference, MaskTrack R-CNN maintains a memory to store the feature vectors of existing instances. 推論中、masktrack r-cnnは既存のインスタンスの機能ベクトルを格納するメモリを保持する。 0.65
For more details (e.g., memory update, inference strategy, model setup), please refer to [49]. 詳細(メモリ更新、推論戦略、モデル設定など)については、[49]を参照してください。 0.77
4.2. Temporal Feature Calibration 4.2. 時間的特徴キャリブレーション 0.72
One of the keys to tackling occlusion is to complement the missing object cues. 閉塞に取り組む鍵の1つは、欠けている物体の手がかりを補うことである。 0.58
In a video that has a temporal dimension, a mild assumption is that usually, the missing object cues in the current frame may have appeared in adjacent frames. 時間次元を持つビデオでは、通常、現在のフレームに欠けている物体の手がかりが隣接するフレームに現れた可能性があるという軽微な仮定がある。 0.74
Hence, it is natural to leverage adjacent frames したがって、隣接するフレームを活用するのは自然です。 0.61
5 Conv.TemporalFeature CalibrationBackboneM ask HeadCls. 5 Conv.TemporalFeature CalibrationBackboneM ask HeadCls 0.54
Head𝐇×𝐖×𝐝𝟐……𝐑𝐞𝐟𝐞𝐫𝐞𝐧𝐜𝐞:𝐅𝐫C𝐇×𝐖×𝟏𝟖D𝐇×𝐖×𝟐𝟓𝟔CCorrelationDDeforma bleConvolutionElemen t-wiseAddition𝐐𝐮𝐞𝐫𝐲:𝐅𝐪BoxHead HeadH×W×d2......参照:FrCH×W×18DH×W×256CCorrelationDDefo rmableConvolutionEle ment-wiseAdditionQue ry:FqBoxHead 0.20
英語(論文から抽出)日本語訳スコア
Methods FEELVOS [38] IoUTracker+ [49] MaskTrack R-CNN [49] SipMask [4] STEm-Seg [1] CSipMask (ours) CMaskTrack R-CNN (ours) 方法 FEELVOS [38] IoUTracker+ [49] MaskTrack R-CNN [49] SipMask [4] STEm-Seg [1] CSipMask (ours) CMaskTrack R-CNN (ours) 0.86
AP 9.6 7.3 10.9 10.3 13.8 13.9 14.9 AP 9.6 7.3 10.9 10.3 13.8 13.9 14.9 0.46
OVIS validation set AP50 22.3 17.9 26.0 25.4 32.1 30.7 32.4 OVIS検証セット AP50 22.3 17.9 26.0 25.4 32.1 30.7 32.4 0.60
AP75 7.6 5.5 8.1 7.8 11.9 11.9 12.5 AP75 7.6 5.5 8.1 7.8 11.9 11.9 12.5 0.44
AR1 7.4 6.1 8.3 7.9 9.1 9.4 9.1 AR1 7.4 6.1 8.3 7.9 9.1 9.4 9.1 0.44
AR10 14.8 15.1 15.2 15.8 20.0 19.4 19.5 AR10 14.8 15.1 15.2 15.8 20.0 19.4 19.5 0.44
AP 11.5 9.5 12.6 12.1 14.4 15.0 15.2 AP 11.5 9.5 12.6 12.1 14.4 15.0 15.2 0.46
AP50 23.7 18.8 27.3 24.9 30.0 30.4 31.2 AP50 23.7 18.8 27.3 24.9 30.0 30.4 31.2 0.44
OVIS test set OVISテストセット 0.79
AP75 8.4 10.0 10.7 11.1 13.0 13.4 14.3 AP75 8.4 10.0 10.7 11.1 13.0 13.4 14.3 0.44
AR1 9.2 6.6 8.3 8.3 10.1 9.7 10.1 AR1 9.2 6.6 8.3 8.3 10.1 9.7 10.1 0.44
AR10 16.3 16.5 16.6 17.0 20.6 20.8 20.1 AR10 16.3 16.5 16.6 17.0 20.6 20.8 20.1 0.44
Table 2. Quantitative comparison with state-of-the-art methods on the OVIS validation and test set. 表2。 OVIS検証とテストセットにおける最先端手法の定量的比較 0.76
Methods FEELVOS [38] IoUTracker+ [49] OSMN [50] DeepSORT [43] MaskTrack R-CNN [49] SipMask [4] STEm-Seg [1] CMaskTrack R-CNN CSipMask 方法 FEELVOS [38] IoUTracker+ [49] OSMN [50] DeepSORT [43] MaskTrack R-CNN [49] SipMask [4] STEm-Seg [1] CMaskTrack R-CNN CSipMask 0.86
YouTube-VIS validation set AP AP50 AP75 AR1 AR10 26.9 42.0 29.7 29.9 33.4 23.6 39.2 25.5 26.2 30.9 27.5 45.1 29.1 28.6 33.1 26.1 42.9 26.1 27.8 31.3 30.3 51.1 32.6 31.0 35.5 32.5 53.0 33.3 33.5 38.9 30.6 50.7 33.5 31.6 37.1 32.1 52.3 34.4 32.8 37.6 35.0 55.0 38.1 35.8 41.4 YouTube-VIS validation set AP AP50 AP75 AR1 AR10 26.9 42.0 29.7 29.9 33.4 23.6 39.2 25.5 26.2 30.9 27.5 45.1 29.1 28.6 33.1 26.1 42.9 26.1 27.8 31.3 30.3 51.1 32.6 31.0 35.5 32.5 53.0 33.3 33.5 38.9 30.6 50.7 33.5 31.6 37.1 32.1 52.3 34.4 32.8 37.6 35.0 55.0 38.1 35.8 41.4 0.42
Table 3. Quantitative comparison with state-of-the-art methods on the YouTube-VIS validation set. 表3。 YouTube-VIS検証セットにおける最先端手法の定量的比較 0.73
to alleviate occlusions. However, caused by motions, the features of different frames are not aligned in the spatial dimension. 閉塞を緩和する。 しかし、動きによって引き起こされる異なるフレームの特徴は、空間次元において整列しない。 0.67
Things get much worse because of the existence of severe occlusions. 厳しい閉塞の存在により事態はさらに悪化する。 0.59
To solve this issue, we propose an easy plug-in called temporal feature calibration as illustrated in Fig. この問題を解決するために、図に示すように、時間的特徴キャリブレーションと呼ばれる簡易なプラグインを提案する。 0.65
6. Denote by Fq ∈ RH×W×C and Fr ∈ RH×W×C the feature tensor of the query frame (called target or current frame in some literature) and a reference frame, respectively. 6. Fq ∈ RH×W×C と Fr ∈ RH×W×C によって、クエリフレーム(ある文献ではターゲットまたは現在のフレームと呼ばれる)と参照フレームの特徴テンソルとして記述される。 0.83
The feature calibration first computes the spatial correlation [9] between Fq and Fr. 特徴キャリブレーションは、まずFqとFrの間の空間相関[9]を計算します。 0.75
Given a location xq in Fq and xr in Fr, we compute Fq の xq と Fr の xr が与えられたとき、計算する。 0.72
(cid:88) c(xq, xr) = (cid:88) c(xq, xr) = 0.82
Fq(xq + o)Fr(xr + o)T, Fq(xq + o)Fr(xr + o)T, 0.85
(3) o∈[−k,k]×[−k,k] (3) o∈[−k,k]×[−k,k] 0.85
The above operation will transverse the d × d area centered on xq, then outputs a d2-dimensional vector. 上記の演算は xq を中心とする d × d 領域を横切り、d2-次元ベクトルを出力する。 0.77
After enumerating all the positions in Fq, we obtain C ∈ RH×W×d2 and forward it into multiple stacked convolution layers to get the spatial calibration offset D ∈ RH×W×18. Fq のすべての位置を列挙した後、C ∈ RH×W×d2 を取得し、それを複数の積み重ねた畳み込み層に転送し、空間キャリブレーションオフセット D ∈ RH×W×18 を得る。 0.76
We then obtain a calibrated version of Fr by applying deformable convolutions with D as the spatial calibration offset, which is denoted as Fr. 次に、空間的キャリブレーションオフセットとしてDで変形可能な畳み込みを適用することにより、Frのキャリブレーションバージョンを得る。 0.70
At last, we fuse the calibrated reference feature Fr with the query feature Fq by elementwise addition for the localization, classification and segmentation of the current frame afterward. 最終的に、キャリブレーションされた参照特徴Frをクエリ特徴Fqと融合させ、現在のフレームのローカライゼーション、分類、セグメンテーションを要素的に追加する。 0.66
During training, for each query frame Fq, we randomly トレーニング中、各クエリフレームFqに対してランダムに 0.68
6 sample a reference frame Fr from the same video. 6 同じビデオから参照フレームFrをサンプリングします。 0.78
In order to ensure that the reference frame has a strong spatial correspondence with the query frame, the sampling is only done locally within train = 5 frames. 参照フレームがクエリーフレームと強い空間対応を持っていることを確認するために、サンプリングは*train = 5フレーム内でのみローカルに行われます。 0.71
Since the temporal feature calibration is differentiable, it can be trained end-toend by the original detection and segmentation loss. 時間的特徴キャリブレーションは異なるため、元の検出とセグメンテーション損失によってエンドツーエンドで訓練することができる。 0.74
When inference, all frames adjacent to the query frame within the range test = 3 are taken as reference frames. 推論の際には、範囲 >test = 3 内のクエリフレームに隣接するすべてのフレームを参照フレームとする。 0.73
We linearly fuse the classification confidences, regression bounding box coordinates, and segmentation masks obtained from each reference frame and output the final results for the query frame. 我々は,各参照フレームから得られた分類信頼度,回帰境界ボックス座標,セグメンテーションマスクを線形に融合し,問合せフレームの最終結果を出力する。 0.85
In the experiments, we denote our method as CMaskTrack R-CNN and CSipMask, when Calibrating MaskTrack R-CNN [49] models and Calibrating SipMask [4] models, respectively. 本実験では,本手法をCMaskTrack R-CNNとCSipMaskと表記し,MaskTrack R-CNN[49]モデルとSipMask[4]モデルの校正を行った。 0.86
5. Experiments The experiments are mainly focused on two aspects, including 1) a comprehensive evaluation of 5 existing video instance segmentation algorithms to benchmark the baseline performance of our OVIS dataset, and 2) a performance comparison between our method (CMaskTrack R-CNN and CSipMask) and state-of-the-art algorithms in both OVIS and YouTube-VIS. 5. 実験 実験は主に,1)OVISデータセットのベースライン性能をベンチマークする5つの既存のビデオインスタンスセグメンテーションアルゴリズムの包括的な評価,2)OVISとYouTube-VISの最先端アルゴリズムとCMaskTrack R-CNNとCSipMaskのパフォーマンス比較という2つの側面に注目した。 0.81
5.1. Dataset, Metric and Implementation Details 5.1. データセット、メトリック、実装の詳細 0.73
The YouTube-VIS dataset [49] has 2,238 training videos, 302 validation videos, and 343 test videos. YouTube-VISデータセット[49]には、トレーニングビデオ2,238、検証ビデオ302、テストビデオ343がある。 0.71
We train our model on the training set and report the performance on the validation set. トレーニングセットでモデルをトレーニングし、検証セットでのパフォーマンスを報告します。 0.64
On the newly collected OVIS dataset, the whole dataset is randomly divided into 607 training videos, 140 validation videos, and 154 testing videos. 新たに収集されたOVISデータセットでは、データセット全体がランダムに607のトレーニングビデオ、140の検証ビデオ、154のテストビデオに分けられます。 0.70
Following previous methods [49], we use average precision (AP) at different intersection-over-un ion (IoU) thresholds and average recall (AR) as the evaluation metrics. 従来の手法 [49] に従えば, 平均精度 (AP) は, 異なる交差一致閾値 (IoU) で, 平均リコール (AR) を評価指標として用いる。 0.78
The mean value of APs is also employed. APsの平均値も採用されている。 0.65
We adopt ResNet-50-FPN [14] as backbone for all our experiments. すべての実験のバックボーンとしてResNet-50-FPN [14]を採用しています。 0.54
The model is initialized by Mask R-CNN which is pre-trained on MS-COCO [28]. モデルはMS-COCO[28]上で事前訓練されたMask R-CNNによって初期化される。 0.60
Three convolution layers of kernel size 3 × 3 are used in the module for モジュールにはカーネルサイズ3×3の3つの畳み込み層が使用される。 0.76
英語(論文から抽出)日本語訳スコア
Figure 7. Qualitative evaluation of CMaskTrack R-CNN on OVIS. 図7。 OVISにおけるCMaskTrack R-CNNの定性評価 0.76
Each row presents the results of 5 frames in a video sequence. 各行は、ビデオシーケンスで5フレームの結果を表示します。 0.82
(a)-(d) are 4 successful cases and (e)-(f) are failure cases. (a)-(d)は4つの成功事例であり、(e)-(f)は失敗事例である。 0.73
temporal feature calibration. The training epoch is set to 12, and the initial learning rate is set to 0.005 and decays with a factor of 10 at epoch 8 and 11. 時間的特徴校正。 トレーニングエポックは12に設定され、初期学習率は0.005に設定され、エポック8と11で10の係数で崩壊する。 0.70
All frames are resized to 640 × 360 during both training and inference. すべてのフレームはトレーニングと推論の両方で640×360にリサイズされる。 0.75
5.2. Comparison with State-of-the-art 5.2. 最新技術との比較 0.60
On the OVIS dataset, we first produce the performance of several state-of-the-art algorithms whose code is publicly available1, including mask propagation methods (e.g., FEELVOS [38]), track-by-detect methods (e.g., IoUTracker+ [49]), and recently proposed end-to-end methods (e.g., MaskTrack R-CNN [49], SipMask [4], and STEm-Seg [1]). OVISデータセットでは、まず、マスク伝搬法(例:FEELVOS [38])、トラックバイディテクト法(例:IoUTracker+ [49])、最近提案されたエンドツーエンド法(例:MaskTrack R-CNN [49]、SipMask [4]、STEm-Seg [1])を含む、コードが公開されているいくつかの最先端のアルゴリズムのパフォーマンスを生成する。 0.76
As presented in Table 2 and Table 3, all those methods encounter a performance degradation of at least 50% on OVIS compared with that on YouTube-VIS. 表2と表3で示されるように、これらのメソッドは、YouTube-VISと比較して、OVISで少なくとも50%の性能低下に直面する。 0.65
For example, the AP of SipMask [4] decreases from 32.5 to 12.1 and that of STEm-Seg [1] decreases from 30.6 to 14.4. 例えば、SipMask [4] の AP は 32.5 から 12.1 に減少し、STEm-Seg [1] は 30.6 から 14.4 に減少する。 0.65
It firmly suggests that further attention should be paid to video instance segmentation in the real world where occlusions extensively happen. これは、隠蔽が広範囲に起こる現実世界におけるビデオインスタンスセグメンテーションに、さらなる注意を払うべきであることを強く示唆している。
訳抜け防止モード: それはしっかりと示唆します。 閉塞が広範囲に起こる現実世界のビデオインスタンスのセグメンテーションにさらに注意を払うべきです。
0.63
Benefiting from 3D convolutional layers and the bottomup architecture, STEm-Seg surpasses other methods on OVIS and reports an AP of 14.4. 3D畳み込み層とボトムアップアーキテクチャから恩恵を受け、STEm-SegはOVISの他の手法を上回り、APは14.4である。
訳抜け防止モード: 3次元畳み込み層とボトムアップアーキテクチャから恩恵を受けるSegはOVIS上の他の方法を上回る APは14.4。
0.67
Our interpretation is that 1The performance of some methods is also being produced by the au- 私たちの解釈は 1ある方法の性能はまたauによって作り出されています。 0.70
thors of the corresponding papers, which will be updated afterward. その後更新される対応する論文のThors。 0.49
3D convolution is conducive to sensing temporal context, and the bottom-up architecture avoids the detection process which is difficult in occluded scenes. 3次元の畳み込みは時間的コンテキストの知覚に寄与し,ボトムアップアーキテクチャは閉鎖シーンにおいて困難な検出プロセスを回避する。 0.71
By leveraging the feature calibration module, 特徴キャリブレーションモジュールを活用することで 0.75
the performance on OVIS is significantly improved. OVISの性能は大幅に改善されます。 0.75
Our CMaskTrack R-CNN leads to an AP improvement of 2.6 over MaskTrack R-CNN (12.6 vs. 15.2), and our CSipMask leads to an AP improvement of 2.9 over SipMask (12.1 vs. 15.0). CMaskTrack R-CNNはMaskTrack R-CNNより2.6改善(12.6対15.2)、CSipMaskはSipMaskより2.9改善(12.1対15.0)につながります。 0.78
Both achievements are superior to that of STEm-Seg, by a margin of 0.8 and 0.6 in terms of AP, respectively. どちらの成果も STEm-Seg よりも優れているが、AP のマージンは 0.8 と 0.6 である。 0.67
Some evaluation examples of CMaskTrack R-CNN on OVIS are given in Fig. OVIS上のCMaskTrack R-CNNの評価例を図に示します。 0.76
7, including 4 successful cases (a)(d) and 2 failure cases (e)-(f). 7の4つの成功例(a)(d)および2つの失敗例(e)-(f)を含む。 0.73
In (a), our model successfully tracks the bear in the yellow mask, which is partially occluded by another object, i.e., the bear in the purple mask, and the background, i.e., the tree. a)では、私たちのモデルは、部分的に別の物体、すなわち紫色のマスクのクマ、および背景、すなわち木によって遮られる黄色のマスクでクマを追跡することに成功しました。 0.82
In (c), we present a crowded scene where almost all the ducks are correctly detected and tracked, with only a missing detection on the leftmost duck in the 2nd frame. c) では, ほとんどすべてのアヒルが正しく検出され, 追跡され, 第2フレームの最左端のアヒルにしか検出されない混雑したシーンを提示する。 0.69
However, it is surprising to see that the duck is re-tracked in later frames, which reveal that the temporal cues are well captured by our model. しかし、後続のフレームでアヒルが追跡されることは驚きであり、時間的手がかりは我々のモデルによってよく捉えられている。 0.68
In (d), the car in the yellow mask first blocks the car in the red mask entirely in the 2nd frame, then is entirely blocked by the car in the purple mask in the 4th frame. d) 黄色いマスクの車は、最初に赤いマスクで車をブロックし、2番目のフレームで完全にブロックし、4番目のフレームで紫色のマスクで車に完全にブロックされる。 0.77
Even in this extreme case, all the cars are well tracked. この極端なケースでも、すべての車はよく追跡されています。 0.63
In (e), two persons and two bicycles heavily overlap with each other. e)では、2人の人と2人の自転車が重なり合っています。 0.69
Our 7 (a)(c)(d)(e)(f)(b) 我々の 7 (a)(c)(d)(e)(f)(b)) 0.79
英語(論文から抽出)日本語訳スコア
model fails to track the person and segment the bicycle. モデルは人の追跡に失敗し 自転車を分断します 0.74
In (f), although humans could sense that there are two persons with hat in the bottom, our model cannot detect and track them because the appeared visual cues are inadequate. f)では,下面に2人の帽子を持っていると認識できるが,視覚的手がかりが不十分なため,我々のモデルでは検出・追跡できない。 0.76
We further evaluate the proposed CMaskTrack R-CNN and CSipMask on the YouTube-VIS dataset. さらに,提案したCMaskTrack R-CNNとCSipMaskをYouTube-VISデータセット上で評価した。 0.59
As shown in Table 3, CMaskTrack R-CNN and CSipMask surpass the corresponding baseline by 1.8 and 2.5 in terms of AP, respectively, which demonstrates the flexibility and the generalization power of the proposed feature calibration module. 表3に示すように、cmasktrack r-cnn と csipmask はそれぞれapの点で対応するベースラインを 1.8 と 2.5 で上回り、提案する特徴キャリブレーションモジュールの柔軟性と一般化能力を示している。 0.73
Moreover, our methods also beat other representative methods by a larger margin, including DeepSORT [43], STEm-Seg [1], etc. さらに,DeepSORT [43] やSTEm-Seg [1] など,他の代表手法よりも広いマージンで勝っている。
訳抜け防止モード: さらに,提案手法は,他の代表手法をより大きなマージンで打ち負かしている。 DeepSORT [ 43 ], STEm - Seg [ 1 ],etc を含む。
0.73
In [2], Gedas et al. [2]では、Gedas et al。 0.72
propose MaskProp by replacing the bounding-box level tracking in MaskTrack R-CNN by a novel mask propagation mechanism. MaskTrack R-CNNのバウンディングボックスレベルのトラッキングを新しいマスク伝搬機構で置き換えて、MaskPropを提案します。 0.73
By using a larger backbone (STSN [3]-ResNeXt-10164x4d [45]), a better detection network (HybridTask Cascade Network [5]), higher resolution inputs for segmentation network, and more training iterations, it reports a much higher AP of 46.6 on YouTube-VIS. より大きなバックボーン(STSN [3]-ResNeXt-10164x4d [45])、より良い検出ネットワーク(HybridTask Cascade Network [5])、高分解能のセグメンテーションネットワーク、より多くのトレーニングイテレーションを使用することで、YouTube-VISで46.6のはるかに高いAPを報告する。 0.79
We believe that our module is also pluggable to this strong baseline and better performance could be achieved. 当社のモジュールはこの強力なベースラインにプラグイン可能で、パフォーマンスも向上できると考えています。 0.75
Meanwhile, it is also interesting to evaluate the performance of MaskProp on OVIS after its code is released. 一方、コードがリリースされた後、OVIS上でMaskPropのパフォーマンスを評価することも興味深い。 0.76
5.3. Discussions Ablation Study. 5.3. 議論アブレーション研究。 0.67
We study the temporal feature calibration module with a few alternatives. 時間的特徴キャリブレーションモジュールをいくつかの選択肢で検討する。 0.68
The first option is a naive combination, which sums up the feature of the query frame and the reference frame without any feature alignment. 第1の選択肢はナイーブな組み合わせで、クエリフレームと参照フレームの特徴を、機能アライメントなしでまとめたものです。 0.68
The second option is to replace the correlation operation in our module by calculating the element-wise difference between feature maps, which is similar to the operation used in [2]. 第2の選択肢は、 [2] で用いられる操作に類似した特徴写像間の要素ワイド差を計算することで、モジュール内の相関演算を置き換えることである。 0.79
We denote the two options as “Add” and “Difference”, respectively and our module as “Calibration” in Fig. 私たちは2つのオプションをそれぞれ “add” と “difference” と表現し、モジュールを fig で “calibration” と定義します。 0.66
8. As we can see, with both models, “Add” achieves the poorest performance, which shows that a kind of feature calibration between different frames is necessary and beneficial to an accurate prediction of video instance segmentation. 8. いずれのモデルでも、”Add” は最も貧弱なパフォーマンスを実現しており、ビデオインスタンスのセグメンテーションの正確な予測には、異なるフレーム間の機能キャリブレーションが必要であり、有用であることを示している。 0.77
Meanwhile, “Calibration” consistently outperforms “Difference” with a decent performance boost. 一方、“キャリブレーション”は“ディフレクション(Difference)”を一貫して上回り、パフォーマンスが向上する。 0.58
For example, “Calibration” achieves an AP of 15.2, an improvement of 0.8 over “Difference” with MaskTrack R-CNN as the base model, and achieves an AP of 13.9, an improvement of 0.9 over “Difference” with SipMask as the base model. 例えば、"Calibration"は15.2のAP、MaskTrack R-CNNをベースモデルとして"Difference"よりも0.8の改善、13.9のAP、SipMaskをベースモデルとして"Difference"よりも0.9の改善を実現している。 0.76
We argue that the correlation operation is able to provide a richer context for feature calibration because it calculates the similarity between the query position and its neighboring positions, while the element-wise difference only considers the difference between the same positions. 相関演算は,問合せ位置と隣接位置との類似度を計算できるのに対し,要素差は同一位置間の差異のみを考慮し,特徴校正のためのより豊かなコンテキストを提供することができる。 0.81
Oracle Results. Oracle の結果。 0.81
In addition, we conduct an experiment to explore the upper bounds of our method on OVIS by replacing the image level predictions with ground-truth. さらに,画像レベルの予測を地中構造に置き換えることで,OVIS上の手法の上界を探索する実験を行った。 0.73
Specifi- Figure 8. Specifi- 図8。 0.77
Ablation study of temporal feature calibration on the OVIS validation set. OVIS検証セットにおける時間的特徴キャリブレーションのアブレーション研究 0.78
“Add” means adding feature maps directly without calibration. Add” はキャリブレーションなしで機能マップを直接追加することを意味する。 0.65
“Difference” means generating the calibration offset based on the element-wise difference between feature maps. ディファレンス」とは、特徴マップの要素方向差に基づいてキャリブレーションオフセットを生成することを意味します。 0.63
cally, we use ground-truth bounding boxes, masks and categories to replace the predictions by CMaskTrack R-CNN, track those ground-truth bounding boxes with the tracking branch, then obtain final instances. これは、CMaskTrack R-CNNによる予測を置き換えるために、グラウンドトルースバウンディングボックス、マスク、カテゴリを使用し、それらのグラウンドトルースバウンディングボックスをトラッキングブランチで追跡し、最終的なインスタンスを取得する。
訳抜け防止モード: cally, we use ground - truth bounding box, masks and categories to replace the predictions by cmasktrack r - cnn, 地面を追跡する - 追跡ブランチで真理のバウンディングボックス。 最終インスタンスを取得する。
0.73
By doing so, we achieve an AP of 58.4 and an AR10 of 66.1, which demonstrates that the image level prediction is critical for the performance of occluded video instance segmentation. これにより、58.4 の AP と 66.1 の AR10 を達成し、映像インスタンスのセグメンテーションのパフォーマンスに画像レベルの予測が重要であることを実証します。 0.74
6. Conclusions In this work, we target video instance segmentation in occluded scenes, and accordingly contribute a large-scale dataset called OVIS. 6. 結論 本研究では,映像インスタンスのセグメンテーションを対象として,OVISと呼ばれる大規模データセットのコントリビューションを行う。 0.73
OVIS consists of 296k high-quality instance masks of 5,223 heavily occluded instances. OVISは5,223インスタンスの296kの高品質インスタンスマスクで構成されている。 0.52
While being the second benchmark dataset after YouTube-VIS, OVIS is designed to examine the ability of current video understanding systems in terms of handling object occlusions. YouTube-VISに続く2番目のベンチマークデータセットであるOVISは、オブジェクトの隠蔽を扱うために、現在のビデオ理解システムの能力を調べるように設計されている。 0.63
A general conclusion comes to that the baseline performance on OVIS is far below that on YouTube-VIS, which suggests that more effort should be devoted in the future to tackling object occlusions or de-occluding objects [51]. 一般的な結論は、OVISのベースラインのパフォーマンスはYouTube-VISのそれよりはるかに低いということです。
訳抜け防止モード: 一般的な結論は、OVISのベースラインのパフォーマンスがYouTube - VISのそれよりはるかに低いということです。 将来 より多くの努力が 費やされることを示唆しています オブジェクト occlusions または de- occluding オブジェクト [51 ] に取り組む。
0.66
We also explore ways about leveraging temporal context cues to alleviate the occlusion matter, and report an AP of 15.2 on OVIS and 35.0 on YouTube-VIS, a remarkable gain over the state-of-the-art algorithms. また,オクルージョン問題を緩和するために時間的文脈の手がかりを活用する方法についても検討し,OVISで15.2、YouTube-VISで35.0のAPを報告した。 0.60
In the future, we are interested in formalizing the experimental track of OVIS for video object segmentation, either in an unsupervised, semi-supervised, or interactive setting. 将来的には、ビデオオブジェクトセグメンテーションのためのOVISの実験トラックを、教師なし、半教師なし、インタラクティブな設定で形式化することに興味がある。 0.51
It is also of paramount importance to extend OVIS to video panoptic segmentation [20]. また、OVISをビデオパノプティクスセグメンテーション[20]に拡張することが最重要となる。 0.68
As we can see from Fig. 図からわかるように。 0.50
2, a type of occlusion is caused by the background, therefore in this case, heavy occlusions will also affect the prediction of background stuff. 2の閉塞のタイプは背景によって引き起こされます、従ってこの場合、重い閉塞はまた背景物の予測に影響を与えます。 0.74
At last, synthetic occluded data [32] requires further exploration. 最終的に合成オクルードデータ[32]はさらなる探索を必要とする。 0.80
We believe the OVIS dataset will trigger more research in understanding videos in complex and diverse scenes. OVISデータセットは、複雑で多様なシーンでビデオを理解するためのより多くの研究を誘発すると信じています。 0.57
8 SipMaskMaskTrack R-CNN11131517AP11.91 2.913.014.113.914.9A ddDifferenceCalibrat ion (Ours) 8 SipMaskMaskTrack R-CNN11131517AP11.91 2.913.014.113.914.9A ddDifferenceCalibrat ion (Ours) 0.57
英語(論文から抽出)日本語訳スコア
References [1] Ali Athar, Sabarinath Mahadevan, Aljoˇsa Oˇsep, Laura LealTaix´e, and Bastian Leibe. 参照: [1] Ali Athar, Sabarinath Mahadevan, Aljo'sa O'sep, Laura Leal Taix ́e, Bastian Leibe。 0.76
Stem-seg: Spatio-temporal emIn ECCV, beddings for instance segmentation in videos. Stem-seg: 時空間emIn ECCV、ビデオのセグメンテーションなどの寝具。 0.69
2020. 2, 6, 7, 8 2020. 2, 6, 7, 8 0.85
[2] Gedas Bertasius and Lorenzo Torresani. [2] Gedas BertasiusとLorenzo Torresani。 0.76
Classifying, segmenting, and tracking object instances in video with mask propagation. マスク伝搬によるビデオ内のオブジェクトインスタンスの分類、セグメント化、追跡。 0.79
In CVPR, 2020. CVPR、2020年。 0.72
2, 8 [3] Gedas Bertasius, Lorenzo Torresani, and Jianbo Shi. 2, 8 3] Gedas Bertasius、Lorenzo Torresani、Jianbo Shi。 0.73
Object detection in video with spatiotemporal sampling networks. 時空間サンプリングネットワークを用いた映像中の物体検出 0.74
In ECCV, 2018. 2018年、ECCV。 0.68
8 [4] Jiale Cao, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. 8 [4]Jile Cao, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, Ling Shao。 0.80
Sipmask: Spatial information preservation for fast image and video instance segmentation. Sipmask: 高速画像とビデオインスタンスのセグメンテーションのための空間情報保存。 0.77
In ECCV, 2020. ECCV、2020年。 0.70
2, 5, 6, 7 2, 5, 6, 7 0.85
[5] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jianping Shi, Wanli Ouyang, et al. 5]Kai Chen、Jiangmiao Pang、Jiaqi Wang、Yu Xiong、Xiaoxiao Li、Shuyang Sun、Wansen Feng、Ziwei Liu、Jianping Shi、Wanli Ouyang、等。 0.67
Hybrid task cascade for instance segmentation. インスタンスセグメンテーションのためのハイブリッドタスクカスケード。 0.68
In CVPR, pages 4974–4983, 2019. CVPRでは、ページ4974-4983、2019。 0.65
8 [6] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. 8 6] Liang-Chieh Chen、George Papandreou、Iasonas Kokkinos、Kevin Murphy、Alan L Yuille。 0.79
Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. deeplab: 深い畳み込みネット、強い畳み込み、完全に接続されたcrfを備えたセマンティックイメージセグメンテーション。 0.66
IEEE TPAMI, 40(4):834–848, 2017. IEEE TPAMI, 40(4):834–848, 2017 0.94
3 [7] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. 3 iang-Chieh Chen氏、Yukun Zhu氏、George Papandreou氏、Florian Schroff氏、Hartwig Adam氏。 0.77
Encoder-decoder with atrous separable convolution for semantic image segmentation. 画像セグメンテーションのための可分分離畳み込みを伴うエンコーダデコーダ 0.71
In ECCV, 2018. 2018年、ECCV。 0.68
3 [8] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. 3 [8]Jifeng Dai、Haozhi Qi、Yuwen Xiong、Yi Li、Guodong Zhang、Han Hu、Yichen Wei。 0.77
Deformable convolutional networks. 変形可能な畳み込みネットワーク。 0.64
In ICCV, 2017. 2017年、ICCV。 0.71
2 [9] Alexey Dosovitskiy, Philipp Fischer, Eddy Ilg, Philip Hausser, Caner Hazirbas, Vladimir Golkov, Patrick Van Der Smagt, Daniel Cremers, and Thomas Brox. 2 9]Alexey Dosovitskiy氏、Philipp Fischer氏、Eddy Ilg氏、Philip Hausser氏、Caner Hazirbas氏、Vladimir Golkov氏、Patrick Van Der Smagt氏、Daniel Cremers氏、Thomas Brox氏。 0.82
Flownet: Learning optical flow with convolutional networks. flownet:畳み込みネットワークによる光フローの学習。 0.83
In CVPR, 2015. 2015年、CVPR。 0.69
6 [10] Mohsen Fayyaz, Mohammad Hajizadeh Saffar, Mohammad Sabokrou, Mahmood Fathy, Reinhard Klette, and Fay Huang. 6 [10]Mohsen Fayyaz, Mohammad Hajizadeh Saffar, Mohammad Sabokrou, Mahmood Fathy, Reinhard Klette, Fay Huang。 0.81
Stfcn: spatio-temporal fcn for semantic video segmentation. Stfcn:セマンティックビデオセグメンテーションのための時空間fcn。 0.62
In ACCV, 2016. 2016年、ACCV。 0.64
3 [11] Qianyu Feng, Zongxin Yang, Peike Li, Yunchao Wei, and Yi Yang. 3 11] Qianyu Feng、Zongxin Yang、Peike Li、Yunchao Wei、Yi Yang。 0.74
Dual embedding learning for video instance segmentation. ビデオインスタンスセグメンテーションのためのデュアル埋め込み学習 0.77
In ICCVW, 2019. ICCVW、2019年。 0.64
2 [12] Agrim Gupta, Piotr Dollar, and Ross Girshick. 2 12] Agrim Gupta、Piotr Dollar、Ross Girshick。 0.71
Lvis: A dataset for large vocabulary instance segmentation. Lvis: 大きな語彙のインスタンスセグメンテーションのためのデータセット。 0.73
In CVPR, 2019. CVPR、2019年。 0.65
3 [13] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir- 3 [13]Kaming He,Georgia Gkioxari, Piotr Doll ́ar, Ross Gir- 0.84
shick. Mask r-cnn. シック マスクr-cnn。 0.41
In CVPR, 2017. 2017年、CVPR。 0.68
2, 3, 5 [14] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2, 3, 5 [14] Kaiming 彼、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.74
In CVPR, Deep residual learning for image recognition. CVPRでは 画像認識のための深い残差学習 0.76
2016. 6 [15] Jay Hegd´e, Fang Fang, Scott O Murray, and Daniel Kersten. 2016. 6 [15]Jay Hegd ́e、Fang Fang、Scott O Murray、Daniel Kersten。 0.83
Preferential responses to occluded objects in the human visual cortex. ヒト視覚野におけるオクルード物体に対する優先的反応 0.62
JOV, 8(4):16–16, 2008. JOV, 8(4):16–16, 2008。 0.88
1 [16] Yuan Ting Hu, Jia Bin Huang, and Alexander G. Schwing. 1 [16]Yuan Ting Hu、Jia Bin Huang、Alexander G. Schwing。 0.78
Videomatch: Matching based video object segmentation. Videomatch: マッチングベースのビデオオブジェクトのセグメンテーション。 0.81
In ECCV, 2018. 2018年、ECCV。 0.68
3 [17] Zhaojin Huang, Lichao Huang, Yongchao Gong, Chang Huang, and Xinggang Wang. 3 17] Zhaojin Huang、Lichao Huang、Yongchao Gong、Chang Huang、Xinggang Wang。 0.76
Mask scoring r-cnn. マスク得点r-cnn。 0.62
In CVPR, 2019. CVPR、2019年。 0.65
3 [18] Joakim Johnander, Martin Danelljan, Emil Brissman, Fahad Shahbaz Khan, and Michael Felsberg. 3 Joakim Johnander氏、Martin Danelljan氏、Emil Brissman氏、Fahad Shahbaz Khan氏、Michael Felsberg氏。 0.78
A generative appearance model for end-to-end video object segmentation. エンド・ツー・エンドビデオオブジェクトセグメンテーションのための生成的出現モデル 0.82
In CVPR, 2019. CVPR、2019年。 0.65
3 [19] Anna Khoreva, Federico Perazzi, Rodrigo Benenson, Bernt Schiele, and Alexander Sorkine-Hornung. 3 [19]Anna Khoreva, Federico Perazzi, Rodrigo Benenson, Bernt Schiele, Alexander Sorkine-Hornung。 0.83
Learning video object segmentation from static images. 静的画像からビデオオブジェクトのセグメンテーションを学ぶ。 0.70
In CVPR, 2017. 2017年、CVPR。 0.68
3 [20] Dahun Kim, Sanghyun Woo, Joon-Young Lee, and In So Kweon. 3 20] Dahun Kim、Sanghyun Woo、Joon-Young Lee、In So Kweon。 0.81
Video panoptic segmentation. ビデオパンオプティカルセグメンテーション。 0.70
In CVPR, 2020. CVPR、2020年。 0.72
3, 8 [21] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. 3, 8[21] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, Piotr Doll ́ar。 0.82
Panoptic segmentation. パンオプティカルセグメンテーション。 0.57
In CVPR, 2019. CVPR、2019年。 0.65
3 [22] Alexander Kirillov, Yuxin Wu, Kaiming He, and Ross GirIn 3 [22]Alexander Kirillov,Yuxin Wu,Kaming He,Ross Girin 0.78
Image segmentation as rendering. レンダリングとしての画像セグメンテーション。 0.58
shick. Pointrend: CVPR, 2020. シック CVPR、2020年。 0.42
3 [23] Qizhu Li, Xiaojuan Qi, and Philip HS Torr. 3 23] Qizhu Li、Xiaojuan Qi、およびPhilip HS Torr。 0.77
Unifying training and inference for panoptic segmentation. パンオプティカルセグメンテーションの訓練と推論の統一化。 0.56
In CVPR, 2020. CVPR、2020年。 0.72
3 [24] Siyang Li, Bryan Seybold, Alexey Vorobyov, Alireza Fathi, and C. C. Jay Kuo. 3[24] Siyang Li, Bryan Seybold, Alexey Vorobyov, Alireza Fathi, C. C. Jay Kuo。 0.84
Instance embedding transfer to unsupervised video object segmentation. 教師なしビデオオブジェクトセグメンテーションへのインスタンス埋め込み転送。 0.68
In CVPR, 2018. 2018年、CVPR。 0.65
3 [25] Xiaoxiao Li and Chen Change Loy. 3 [25] Xiaoxiao LiとChen Change Loy。 0.81
Video object segmentation with joint re-identification and attention-aware mask propagation. 関節再同定と注意覚マスク伝搬による映像物体のセグメンテーション 0.75
In ECCV, 2018. 2018年、ECCV。 0.68
3 [26] Yuxi Li, Ning Xu, Jinlong Peng, John See, and Weiyao Lin. 3 [26] Yuxi Li、Ning Xu、Jinlong Peng、John See、Weiyao Lin。 0.77
Delving into the cyclic mechanism in semi-supervised video object segmentation. 半監督ビデオオブジェクトのセグメンテーションにおける循環機構の解明 0.78
NeurIPS, 33, 2020. NeurIPS、2020年、33。 0.85
3 [27] Chung-Ching Lin, Ying Hung, Rogerio Feris, and Linglin He. 3 [27]Chung-Ching Lin,Ying Hung,Rogerio Feris,Linglin He。 0.79
Video instance segmentation tracking with a modified vae architecture. 修正Veアーキテクチャによるビデオインスタンスセグメンテーションのトラッキング。 0.69
In CVPR, 2020. CVPR、2020年。 0.72
2 [28] Tsung-Yi Lin, Michael Maire, Serge J Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. 2 9.28]tsung-Yi Lin, Michael Maire, Serge J Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll ́ar, C Lawrence Zitnick。 0.86
Microsoft coco: Common objects in context. Microsoft coco: コンテキスト内の共通オブジェクト。 0.85
In ECCV, 2014. 2014年、ECCV。 0.70
3, 6 [29] Jonathan Long, Evan Shelhamer, and Trevor Darrell. 3, 6 29]ジョナサン・ロング、エヴァン・シェルハマー、トレヴァー・ダレル 0.69
Fully In convolutional networks for semantic segmentation. フルイン 意味セグメンテーションのための畳み込みネットワーク 0.66
CVPR, 2015. 2015年、CVPR。 0.82
3 [30] Jonathon Luiten, Philip Torr, and Bastian Leibe. 3 30] Jonathon Luiten、Philip Torr、Bastian Leibe。 0.71
Video instance segmentation 2019: A winning approach for combined detection, segmentation, classification and tracking. ビデオインスタンスセグメンテーション2019: 組み合わせ検出、セグメンテーション、分類、追跡のための勝利のアプローチ。 0.68
In ICCVW, 2019. ICCVW、2019年。 0.64
2 [31] Ken Nakayama, Shinsuke Shimojo, and Gerald H Silverman. 2 [31] 中山健、下条信介、そしてジェラルド・H・シルバーマン。 0.72
Stereoscopic depth: its relation to image segmentation, grouping, and the recognition of occluded objects. 立体奥行き:画像の分割、グループ化、オクルードされた物体の認識との関係。 0.69
Perception, 18(1):55–68, 1989. 18(1):55-68, 1989年。 0.75
1 [32] Sergey I Nikolenko. 1 [32]Sergey I Nikolenko。 0.77
Synthetic data for deep learning. ディープラーニングのための合成データ。 0.63
arXiv, 2019. arXiv。 2019. 0.82
8 [33] David Nilsson and Cristian Sminchisescu. 8 David Nilsson and Cristian Sminchisescu.[33] David Nilsson and Cristian Sminchisescu. 0.79
Semantic video segmentation by gated recurrent flow propagation. ゲート型リカレント流伝搬による意味的映像セグメンテーション 0.71
In CVPR, 2018. 2018年、CVPR。 0.65
3 [34] Seoung Wug Oh, Joon Young Lee, Kalyan Sunkavalli, and Seon Joo Kim. 3 [34]Seoung Wug Oh, Joon Young Lee, Kalyan Sunkavalli, Seon Joo Kim。 0.79
Fast video object segmentation by referenceguided mask propagation. 参照誘導マスク伝搬による高速映像オブジェクトセグメンテーション 0.77
In CVPR, 2018. 2018年、CVPR。 0.65
3 [35] Seoung Wug Oh, Joon Young Lee, Ning Xu, and Seon Joo Kim. 3 [35]Seoung Wug Oh、Joon Young Lee、Ning Xu、Seon Joo Kim。 0.78
Video object segmentation using space-time memory networks. 時空メモリネットワークを用いたビデオオブジェクトセグメンテーション 0.80
In ICCV, 2019. ICCV、2019年。 0.67
3 9 3 9 0.85
英語(論文から抽出)日本語訳スコア
[36] Arnold WM Smeulders, Dung M Chu, Rita Cucchiara, Simone Calderara, Afshin Dehghan, and Mubarak Shah. [36] Arnold WM Smeulders, Dung M Chu, Rita Cucchiara, Simone Calderara, Afshin Dehghan, Mubarak Shah。 0.77
ViIEEE TPAMI, sual tracking: An experimental survey. ViIEEE TPAMI, sual tracking: 実験的な調査。 0.85
36(7):1442–1468, 2013. 36(7):1442–1468, 2013. 0.88
3 [37] Pavel Tokmakov, Karteek Alahari, and Cordelia Schmid. 3 37] Pavel Tokmakov、Karteek Alahari、Cordelia Schmid。 0.72
Learning motion patterns in videos. ビデオのモーションパターンを学ぶ。 0.79
In CVPR, 2017. 2017年、CVPR。 0.68
3 [38] Paul Voigtlaender, Yuning Chai, Florian Schroff, Hartwig Adam, Bastian Leibe, and Liang-Chieh Chen. 3 38] Paul Voigtlaender、Yuning Chai、Florian Schroff、Hartwig Adam、Bastian Leibe、Liang-Chieh Chen。 0.77
Feelvos: Fast end-to-end embedding learning for video object segmentation. Feelvos: ビデオオブジェクトのセグメンテーションのための高速エンドツーエンドの埋め込み学習。 0.63
In CVPR, 2019. CVPR、2019年。 0.65
2, 6, 7 [39] Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, and Bastian Leibe. 2, 6, 7 39] Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe。
訳抜け防止モード: 2, 6, 7 [39 ]Paul Voigtlaender, Michael Krause, Aljosa Osep, Joathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger バスティアン・レイベ(Bastian Leibe)とも。
0.84
Mots: Multi-object tracking and segmentation. Mots: マルチオブジェクトトラッキングとセグメンテーション。 0.85
In CVPR, 2019. CVPR、2019年。 0.65
3 [40] Paul Voigtlaender and Bastian Leibe. 3 40] Paul VoigtlaenderとBastian Leibe。 0.74
Online adaptation of convolutional neural networks for video object segmentation. ビデオオブジェクトセグメンテーションのための畳み込みニューラルネットワークのオンライン適応 0.83
In BMVC, 2017. 2017年、BMVC。 0.62
3 [41] Qiang Wang, Yi He, Xiaoyun Yang, Zhao Yang, and Philip Torr. 3 41] Qiang Wang、Yi He、Xiaoyun Yang、Zhao Yang、Philip Torr。 0.69
An empirical study of detection-based video instance segmentation. 検出に基づくビデオインスタンスセグメンテーションに関する実証的研究 0.78
In ICCVW, 2019. ICCVW、2019年。 0.64
2 [42] Wenguan Wang, Hongmei Song, Shuyang Zhao, Jianbing Shen, and Haibin Ling. 2 [42] Wenguan Wang、Hongmei Song、Shuyang Zhao、Jianbing Shen、Habin Ling。 0.75
Learning unsupervised video object segmentation through visual attention. 視覚的注意による教師なし映像オブジェクトセグメンテーションの学習 0.68
In CVPR, 2019. CVPR、2019年。 0.65
3 [43] Nicolai Wojke, Alex Bewley, and Dietrich Paulus. 3 43] Nicolai Wojke, Alex Bewley, Dietrich Paulus。 0.75
Simple online and realtime tracking with a deep association metric. ディープアソシエーションメトリックによる簡単なオンラインおよびリアルタイムトラッキング。 0.66
In ICIP, 2017. 2017年、ICIP。 0.48
6, 8 [44] Jialian Wu, Liangchen Song, Tiancai Wang, Qian Zhang, and Junsong Yuan. 6, 8 [44]Jian Wu、Liangchen Song、Tiancai Wang、Qian Zhang、Junsong Yuan。 0.76
Forest r-cnn: Large-vocabulary long-tailed object detection and instance segmentation. forest r-cnn: 大語彙長尾オブジェクト検出とインスタンスセグメンテーション。 0.74
In ACM Multimedia, 2020. ACMマルチメディア、2020年。 0.71
3 [45] Saining Xie, Ross Girshick, Piotr Doll´ar, Zhuowen Tu, and Kaiming He. 3 [45]Sailing Xie, Ross Girshick, Piotr Doll ́ar, Zhuowen Tu, Kaiming He。 0.81
Aggregated residual transformations for deep neural networks. ディープニューラルネットワークのための集約残差変換 0.69
In CVPR, 2017. 2017年、CVPR。 0.68
8 [46] Yuwen Xiong, Renjie Liao, Hengshuang Zhao, Rui Hu, Min Bai, Ersin Yumer, and Raquel Urtasun. 8 46] Yuwen Xiong、Renjie Liao、Hengshuang Zhao、Rui Hu、Min Bai、Ersin Yumer、Raquel Urtasun。 0.74
Upsnet: A unified panoptic segmentation network. upsnet: 統一されたpanopticセグメンテーションネットワーク。 0.78
In CVPR, 2019. CVPR、2019年。 0.65
3 [47] Ning Xu, Linjie Yang, Yuchen Fan, Dingcheng Yue, Yuchen Liang, Jianchao Yang, and Thomas Huang. 3 [47]Ning Xu、Linjie Yang、Yuchen Fan、Dingcheng Yue、Yuchen Liang、Jianchao Yang、Thomas Huang。 0.74
Youtube-vos: A large-scale video object segmentation benchmark. Youtube-vos: 大規模なビデオオブジェクトセグメンテーションベンチマーク。 0.68
arXiv, 2018. arXiv、2018。 0.78
2 [48] Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang, Huan Huang, Shilei Wen, Errui Ding, and Liusheng Huang. 2 [48]Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang, Huan Huang, Shilei Wen, Errui Ding, Liusheng Huang。 0.80
Segment as points for efficient online multi-object tracking and segmentation. 効率的なオンラインマルチオブジェクトトラッキングとセグメンテーションのためのポイントとしてのセグメンテーション。 0.70
In ECCV, 2020. ECCV、2020年。 0.70
3 [49] Linjie Yang, Yuchen Fan, and Ning Xu. 3 [49]Linjie Yang、Yuchen Fan、Ning Xu。 0.73
Video instance seg- Video instance seg- 0.94
mentation. In ICCV, 2019. メンテーション ICCV、2019年。 0.57
1, 2, 4, 5, 6, 7 1, 2, 4, 5, 6, 7 0.85
[50] Linjie Yang, Yanran Wang, Xuehan Xiong, Jianchao Yang, and Aggelos K Katsaggelos. [50]Linjie Yang、Yanran Wang、Xuehan Xiong、Jianchao Yang、Aggelos K Katsaggelos。 0.62
Efficient video object segmentation via network modulation. ネットワーク変調による効率的な映像オブジェクトセグメンテーション 0.82
In CVPR, 2018. 2018年、CVPR。 0.65
6 [51] Xiaohang Zhan, Xingang Pan, Bo Dai, Ziwei Liu, Dahua Self-supervised scene de- 6 [51]Xiaohang Zhan, Xingang Pan, Bo Dai, Ziwei Liu, Dahua Self-supervised scene de- 0.89
Lin, and Chen Change Loy. Lin, and Chen Change Loy 0.70
occlusion. In CVPR, 2020. 閉塞 CVPR、2020年。 0.51
8 [52] Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan, and Yichen In CVPR, 8 [52] Xizhou Zhu、Yuwen Xiong、Jifeng Dai、Lu Yuan、Yichen in CVPR。 0.76
Wei. Deep feature flow for video recognition. Wei ビデオ認識のための深い特徴フロー。 0.64
2017. 3 10 2017. 3 10 0.85
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。