論文の概要、ライセンス

# (参考訳) SwiftNet: リアルタイムビデオオブジェクトセグメンテーション [全文訳有]

SwiftNet: Real-time Video Object Segmentation ( http://arxiv.org/abs/2102.04604v1 )

ライセンス: CC BY 4.0
Haochen Wang, Xiaolong Jiang, Haibing Ren, Yao Hu, Song Bai(参考訳) 本稿では、DAVIS 2017バリデーションデータセット上で77.8%のJ&Fと70 FPSを報告するリアルタイムの半監視ビデオオブジェクトセグメンテーション(ワンショットVOS)のためのSwiftNetを紹介します。 これを実現するために,Pixel-Adaptive Memory (PAM) を用いたマッチングベースのVOSにおける時空間冗長性を精巧に圧縮する。 一時的には、PAMはオブジェクトが注目すべきフレーム間のバリエーションを表示するフレーム上のメモリ更新を適応的にトリガーします。 空間的には、PAMは静的なピクセルを無視しながら、動的ピクセルのメモリ更新とマッチングを選択的に行い、セグメント化関連画素に費やされた冗長な計算を著しく削減する。 効率的な参照符号化を促進するために、SwiftNetのリバースサブピクセル展開にもライトアグリゲーションエンコーダが導入されている。 SwiftNetがリアルタイムVOSの強力で効率的なベースラインを設定し、モバイルビジョンへの適用を促進することを期待しています。

In this work we present SwiftNet for real-time semi-supervised video object segmentation (one-shot VOS), which reports 77.8% J&F and 70 FPS on DAVIS 2017 validation dataset, leading all present solutions in overall accuracy and speed performance. We achieve this by elaborately compressing spatiotemporal redundancy in matching-based VOS via Pixel-Adaptive Memory (PAM). Temporally, PAM adaptively triggers memory updates on frames where objects display noteworthy inter-frame variations. Spatially, PAM selectively performs memory update and match on dynamic pixels while ignoring the static ones, significantly reducing redundant computations wasted on segmentation-irrelev ant pixels. To promote efficient reference encoding, light-aggregation encoder is also introduced in SwiftNet deploying reversed sub-pixel. We hope SwiftNet could set a strong and efficient baseline for real-time VOS and facilitate its application in mobile vision.
公開日: Tue, 9 Feb 2021 02:22:48 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
SwiftNet: Real-time Video Object Segmentation SwiftNet: リアルタイムビデオオブジェクトセグメンテーション 0.81
Haochen Wang†, Xiaolong Jiang†, Haibing Ren, Yao Hu Haochen Wang', Xiaolong Jiang', Haibing Ren, Yao Hu 0.75
Alibaba Youku Cognitive and Intelligent Lab Alibaba Youku Cognitive and Intelligent Lab 0.85
{zhinong.whc, xainglu.jxl, haibing.rhb, yaoohu}@alibaba-inc.com zhinong.whc, xainglu.jxl, haibing.rhb, yaoohu}@alibaba-inc.com 0.65
1 2 0 2 b e F 9 1 2 0 2 b e F 9 0.85
] V C . ] V C。 0.79
s c [ 1 v 4 0 6 4 0 sc [ 1 v 4 0 6 4 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Alibaba Youku Cognitive and Intelligent Lab, University of Oxford オックスフォード大学 Alibaba Youku Cognitive and Intelligent Lab 0.65
Song Bai songbai.site@gmail.c om 宋梅 songbai.site@gmail.c om 0.55
Abstract In this work we present SwiftNet for real-time video object segmentation (VOS), which reports 77.8% J &F and 70 FPS on DAVIS 2017 test-dev dataset, excelling in overall accuracy and speed performance among all present solutions. 概要 本稿では,davis 2017 test-devデータセット上で77.8%のj&fと70fpsを報告した,リアルタイムビデオオブジェクトセグメンテーション(vos)用のswiftnetを提案する。
訳抜け防止モード: 概要 本稿では、リアルタイムビデオオブジェクトセグメンテーション(VOS)のためのSwiftNetを紹介します。 77.8 % J & F と 70 FPS を DAVIS 2017 テストで報告します。 すべての現在のソリューションの全体的な精度と速度性能に優れています。
0.56
We achieve this by elaborately compressing spatiotemporal redundancy in matching-based VOS via PixelAdaptive Memory (PAM). これを実現するために,PixelAdaptive Memory (PAM) を用いたマッチングベース VOS の時空間冗長性を精巧に圧縮する。 0.59
Temporally, PAM adaptively triggers update only on frames where objects display noteworthy variations. 一時的に、PAMはオブジェクトが注目すべきバリエーションを表示するフレームのみに適応的に更新をトリガーする。 0.58
Spatially, PAM performs memory update and matching only on temporally-varied pixels, significantly reduces computations squandered at segmentationirreleva nt pixels. 空間的には、PAMは時間変化画素のみのメモリ更新とマッチングを行い、セグメント化関連画素での計算を著しく削減する。 0.64
Furthermore, SwiftNet introduces a lightaggregation encoder to expedite segmentation by simplifying reference encoding. さらにswiftnetでは、参照エンコーディングを簡単にすることでセグメンテーションを迅速化するライトアグリゲーションエンコーダも導入している。 0.52
The code will be publicized so that we hope SwiftNet could serve as a strong baseline for efficient video object segmentation, and facilitate the application of video object segmentation in mobile vision. コードは公開され、SwiftNetが効率的なビデオオブジェクトセグメンテーションの強力なベースラインになり、モバイルビジョンにおけるビデオオブジェクトセグメンテーションの応用が容易になることを期待しています。 0.78
1. Introduction Given the first frame annotation, semi-supervised video object segmentation (one-shot VOS) localizes the annotated object(s) on pixel-level throughout the video. 1. はじめに 最初のフレームアノテーションを考えると、半監督されたビデオオブジェクトセグメンテーション(ワンショットVOS)は、ビデオ全体のピクセルレベルで注釈付きオブジェクトをローカライズします。 0.69
One-shot VOS generally adopts a matching-based strategy, where target objects are first modeled from historical reference frames, then precisely matched against the incoming query frame for localization. ワンショットVOSは一般にマッチングベースの戦略を採用し、ターゲットオブジェクトはまず歴史的参照フレームからモデル化され、次にローカリゼーションのための着信クエリフレームと正確にマッチする。 0.65
Being a video-based task, VOS finds vast applications in surveillance, video editing, and mobile visions, most of which ask for real-time processing speed [38]. ビデオベースのタスクであるVOSは、監視、ビデオ編集、モバイルビジョンの広大なアプリケーションを見つけ、そのほとんどはリアルタイム処理速度を要求します[38]。 0.80
Nonetheless, although pursued in fruitful endeavors [1, 19, 31, 5, 15, 26, 10], accurate VOS at real-time remains unsolved, as object variation over-time poses heavy demands for sophisticated object modeling and matching computations. それでも実りある努力(1,19,31,5,15,26,10) で追求されているにもかかわらず、オブジェクトの経時変化は高度なオブジェクトモデリングとマッチング計算に強い要求をもたらすため、リアルタイムの正確なVOSは未解決のままである。 0.67
As a compromise, most existing methods solely focus on improving segmentation accuracy while at the expense 妥協として、既存のほとんどの手法は、費用のかかるセグメンテーション精度の向上にのみ焦点をあてている。 0.52
Figure 1. Accuracy and speed performance of state-of-the-art methods on DAVIS2017 test-dev dataset, methods locate on the right side of the red vertical dotted line meet real-time requirement. 図1。 DAVIS2017 test-devデータセット上での最先端手法の精度と速度性能,赤垂直点線右側のメソッドはリアルタイム要件を満たす。 0.76
Our solutions (ResNet-18/50 versions) are marked in red. 当社のソリューション(ResNet-18/50バージョン)は赤でマークされています。 0.55
of speed. Amongst, memory-based methods [17, 43, 42] reveal exceptional accuracy with comprehensively modeling object variations using all historical frames and expressive non-local [29] reference-query matching. スピードだ 中でも, メモリベース手法 [17, 43, 42] は, 全ての履歴フレームと表現的非局所的な参照クエリマッチングを用いて, オブジェクトの変動を包括的にモデル化し, 例外的な精度を示す。 0.56
Unfortunately, deploying more reference frames and complicated matching scheme inevitably slow down segmentation. 残念ながら、より多くの参照フレームと複雑なマッチングスキームのデプロイは必然的にセグメンテーションを遅くします。 0.55
Accordingly, recent attempts seek to accelerate VOS with reduced reference frames and light-weight matching scheme [8, 23, 11, 2, 30, 26, 3, 31]. したがって、最近の試みでは、参照フレームの削減と軽量マッチング方式によるVOSの高速化が試みられている [8, 23, 11, 2, 30, 3, 31]。 0.74
For the first aspect, solutions proposed in [23, 11, 2, 30, 26, 3, 31] follow a maskpropagation strategy, where only the first and last historical frames are considered reference for current segmentation. 第1の側面では,[23, 11, 2, 30, 26, 3, 31] で提案された解はマスプロパゲーション戦略に従っており,第1および第2の歴史的フレームのみが現在のセグメンテーションの参照と見なされる。 0.78
For the second aspect, light-weight non-local matching [11, 26, 30], region-wise distance measuring [23, 8, 3], and correlation filtering [2, 28] are deployed to reduce computations. 第2の側面として、軽量な非局所マッチング [11,26,30]、領域的距離測定 [23,8,3]、相関フィルタリング [2,28]を配置し、計算量を削減する。 0.77
However, as shown in Fig.1, although these accelerated methods enjoy faster segmentation speed, yet they still barely meet real-time requirement, and more critically, しかし、図1に示すように、これらの高速化された手法は、セグメント化速度は速いが、まだリアルタイムの要求をほとんど満たしていない。 0.63
1 1 0.85
英語(論文から抽出)日本語訳スコア
Figure 2. An illustration for the effectiveness of PAM. 図2。 PAMの有効性のイラストです。 0.69
Row-wise, updated pixels are red-marked in short video clips. 行順に更新されたピクセルは短いビデオクリップで赤くマークされる。 0.57
they are far from state-of-the-art segmentation accuracy. 最先端のセグメンテーションの精度には程遠い。 0.50
We argue that, the accurate solutions are less efficient due to the spatiotemporal redundancy inherently resides in matching-based VOS, and the fast solutions suffer degraded accuracy for reducing the redundancy indiscriminately. 時空間冗長性が本質的にマッチングベースのVOSに存在するため、正確な解は効率が悪く、高速解は非差別的に冗長性を減らすための劣化した精度を損なう。 0.68
Considering its pixel-wise modeling, matching, and estimating nature, matching-based VOS manifests positive correlation between processing time T and number of matched pixels N as described in 2, θ denotes the order of time complexity. そのピクセル回りのモデリング、マッチング、および推定の性質を考えると、マッチングベースのVOSは、2に記述されたように、処理時間Tと一致するピクセルNの数との間に正の相関を表わす。 0.65
The spatiotemporal redundancy denotes that N is populated with pixels not beneficial for accurate segmentation. 時空間冗長性は、N が正確なセグメンテーションには有用でないピクセルで占められていることを示す。
訳抜け防止モード: 時空間の冗長性は n は正確なセグメンテーションには役に立たない画素を持つ。
0.64
Temporally, existing methods [17, 42] carelessly involve all historical frames (mostly by periodic sampling) for reference modeling, resulting in the fact that static frames showing no object evolution are repeatedly modeled, while dynamic frames containing incremental object information are less attended. 一時的には、既存の方法 [17, 42] は参照モデリングのために(主に周期的サンプリングによって)すべての履歴フレームを不注意に含み、その結果、オブジェクト進化を示さない静的フレームは繰り返しモデル化され、インクリメンタルなオブジェクト情報を含む動的フレームはより少ない。 0.73
Spatially, full-frame modeling and matching are adopted as default [17, 37], wherein most static pixels are redundant for segmentation. 空間的には、フルフレームモデリングとマッチングがデフォルト[17, 37]として採用され、ほとんどの静的ピクセルはセグメンテーションに冗長である。 0.68
From this standpoint, explicitly compressing pixel-wise spatiotemporal redundancy is the best way to yield accurate and fast one-shot VOS. この観点から、ピクセル単位の時空間冗長性を明示的に圧縮することは、正確かつ高速なワンショットVOSを得る最良の方法である。 0.58
T ∝ θ(N ), (1) Accordingly, we propose SwiftNet for real-time one-shot video object segmentation. θ(N) である。 そこで我々は,リアルタイムなワンショットビデオオブジェクトセグメンテーションのためのSwiftNetを提案する。 0.66
Overall, as depicted in Fig.2, SwiftNet instantiates matching-based segmentation with an encoder-decoder architecture, where spatiotemporal redundancy is compressed within the proposed Pixel-Adaptive Memory (PAM) component. 全体として、図2に示すように、SwiftNetはマッチングベースのセグメンテーションをエンコーダデコーダアーキテクチャでインスタンス化し、提案されたPixel-Adaptive Memory(PAM)コンポーネント内で時空間冗長性が圧縮される。 0.59
Temporally, instead of involving all historical frames indiscriminately as reference, PAM introduces a variation-aware trigger module, which computes inter-frame difference to adaptively activate memory update on temporally-varied frames while overlooking the static ones. 一時的には、すべての履歴フレームを参照として無差別に巻き込む代わりに、PAMはフレーム間の差分を計算する変分認識トリガーモジュールを導入し、静的フレームを見下ろしながら、時間変化フレームのメモリ更新を適応的にアクティブにします。 0.63
Spatially, we abolish full-frame operations and design pixel-wise update and match modules in PAM. 空間的には、フルフレーム操作を廃止し、PAMでピクセル単位で更新およびマッチングモジュールを設計します。 0.57
For pixel-wise update, we explicitly evaluate inter-frame pixel similarity to identify a subset of pixels beneficial for memory, and incrementally add their feature representation into the memory while bypassing the redundant ones. 画素単位の更新では、フレーム間の類似性を明示的に評価し、メモリに有用なピクセルのサブセットを特定し、冗長なピクセルをバイパスしながら、その特徴表現をメモリに漸進的に付加する。 0.68
For pixelwise matching, we compress the time-consuming non-local computation to accommodate the pixel-wise memory as ref- 画素ワイドマッチングでは、時間を要する非局所計算を圧縮し、画素ワイドメモリをrefとして適合させる。 0.53
erence, thus achieving efficient matching without degradation of accuracy. 正確さを損なうことなく効率的なマッチングを実現する。 0.70
To further accelerate segmentation, PAM is equipped with a novel light-aggregation encoder (LAE), which eschews redundant feature extraction and enables multi-scale mask-frame aggregation leveraging reversed sub-pixel down-samplings. さらにセグメンテーションを加速するため、pamは冗長な特徴抽出を回避し、逆サブピクセルダウンサンプリングを利用したマルチスケールマスクフレームアグリゲーションを可能にする新しい光集約エンコーダ(lae)を備える。 0.68
In summary, this paper highlights three main contribu- 要約すると、この論文は3つの主なコントリビュートを強調します。 0.45
tions: • We propose SwiftNet to set the new record w.r.t. 規定: •新しいレコードw.r.tを設定するSwiftNetを提案します。 0.59
overall segmentation accuracy and speed, thus providing a strong baseline for real-time VOS with publicized source code. 全体的なセグメンテーション精度とスピードにより、公開ソースコードによるリアルタイムVOSの強力なベースラインを提供します。 0.68
• We pinpoint spatiotemporal •要点 spatiotemporal~ 0.61
the Achilles heel of real-time VOS, and resolve it with Pixel-Adaptive Memory (PAM) composing variationaware trigger and pixel-wise update & matching. リアルタイムvosのアキレストヒールはpixel-adaptive memory (pam)で解決され、variationaware triggerとpixel-wise update & matchingを構成する。 0.72
Light-Aggregation Encoder (LAE) is also introduced for efficient and thorough reference encoding. 光アグリゲーションエンコーダ(LAE)も導入され、効率的で徹底的な参照エンコーディングが可能です。 0.61
redundancy as • We conduct extensive experiments deploying various backbones on DAVIS 2016 & 2017 and YouTube-VOS datasets, reaching the best overall segmentation accuracy and speed performance at 77.8% J &F and 70 FPS on DAVIS2017 test-dev. 冗長性 • DAVIS2017 test-devで77.8%のJ&Fと70 FPSで、DAVIS 2016 & 2017とYouTube-VOSデータセット上で様々なバックボーンをデプロイする広範な実験を行う。 0.69
2. Related Work 2.1. 2. 関連作業2.1。 0.78
One-shot VOS One-shot VOS establishes a spatiotemporal matching problem, such that objects annotated in the first frame are localized in upcoming query frames by searching pixels best-matched to object template modeled in the reference frames. ワンショットVOS ワンショットvosは、参照フレームでモデル化されたオブジェクトテンプレートに最もマッチしたピクセルを検索することによって、最初のフレームでアノテートされたオブジェクトが次のクエリフレームにローカライズされるような時空間マッチング問題を確立する。 0.64
From this perspective, we categorize one-shot VOS methods w.r.t different reference modeling and referencequery matching strategies. この観点から、参照モデリングと参照クエリマッチング戦略の異なるワンショットVOSメソッドを分類する。 0.79
Reference modeling builds object template by exploiting object evolution in historical frames, and methods either follows the last-frame or allframe approaches. 参照モデリングは、過去のフレームでオブジェクトの進化を利用してオブジェクトテンプレートを構築し、メソッドはラストフレームまたはオールフレームアプローチに従う。 0.63
For the former one, [31, 30, 39, 40, 12, 26, 9] utilize only the first and/or last frame as reference, demonstrate favorable segmentation speed but suffer uncompetitive accuracy due to inadequate modeling over object variation. 前者の場合、[31,30,39,40,12,26,9]は、第1及び/又は第2フレームのみを基準として、良好なセグメンテーション速度を示すが、オブジェクトの変動に対する不適切なモデリングのため、競合的精度に欠ける。 0.63
For the latter one, methods proposed in [17, 32, 25, 7, 24, 41, 20] leverages all previous frames and reveal improved accuracy, but they suffer slower speed for heavy computation overhead even with periodic sampling. 後者の場合, [17,32,25,7,24,41,20] で提案する手法は, 従来のフレームを全て活用し, 精度向上を実現したが, 周期的サンプリングにおいても計算オーバーヘッドの低下に苦しむ。 0.78
Considering reference-query matching, we classify methods as two-stage [40, 34, 39] and one-stage [12, 31, 30, 32, 17, 9, 26, 25, 6] basing on whether matching with proposed region-of-interest. 参照クエリマッチングを考えると,提案されたリージョン・オブ・インタレストと一致するかどうかに基づいて,2段階 [40, 34, 39] と1段階 [12, 31, 30, 32, 17, 9, 26, 25, 6] のメソッドを分類する。 0.70
Similar to object detection, twostage methods are more accurate while one-stage leads in speed. 物体検出と同様に、2段階の方法はより正確であり、1段階の方法は速度を導く。 0.61
Besides, the key of matching is similarity measuring, where convolutional networks [12, 31, 32, 9], cross correlation [30, 28], and non-local computation [17, 43, 42, 26] その上、マッチングの鍵は類似度測定であり、畳み込みネットワーク [12, 31, 32, 9] とクロス相関 [30, 28] と非局所計算 [17, 43, 42, 26] がある。 0.85
2 2 0.85
英語(論文から抽出)日本語訳スコア
Figure 3. An illustration of the SwiftNet approach. 図3。 SwiftNetアプローチの例を示します。 0.73
Operations represented by solid black lines are executed first to generate segmentation mask, while dotted lines are conducted as followed for memory update. ソリッドブラックラインで表される操作はまずセグメンテーションマスクを生成するために実行され、その後メモリ更新のために点線が実行される。
訳抜け防止モード: 固体黒線で表される操作は最初に実行される セグメンテーションマスクを生成する 点線はメモリ更新のために続くように実行される。
0.84
are widely adopted. 広く採用されています 0.51
Amongst, non-local [29] reveals best accuracy for capturing all-pairs pixel-wise dependency but are computationally heavy. 中でも非局所[29]は全画素単位の依存性を捉えるのに最適な精度を示すが、計算量は重い。 0.53
In addition to matching-based VOS, propagation-based methods [10, 19, 35, 41, 22] leverages temporal motion consistency to reinforce segmentation, which is highly effective when appearance matching fails due to severe variations. マッチングベースのvosに加えて,伝搬に基づく手法 [10,19,35,41,22] は,時間的運動の一貫性を利用してセグメンテーションを補強する。
訳抜け防止モード: マッチング-ベースVOSに加え、伝搬-ベース手法 [10, 19, 35, 41, 22 ] は時間的動きの整合性を活用する 外観整合が激しい変化によって失敗すると、非常に効果的であるセグメンテーションを強化する。
0.70
Additionally, time-consuming online fine-tuning are exploited in [1, 16, 27] to improve segmentation accuracy, which however is in-practical for real-time application. さらに、時間のかかるオンライン微調整は [1, 16, 27] でセグメンテーションの精度を向上させるために活用されています。 0.69
2.2. Fast VOS 2.2. 高速VOS 0.69
For efficiency, most fast VOS solutions deploy the single-frame reference strategy [26, 10, 30, 31, 35]. 効率のために、ほとんどの高速なvosソリューションはシングルフレーム参照戦略 [26, 10, 30, 35] を展開する。 0.77
Besides, methods proposed in [28, 2, 3, 23, 8] employ segmentation-by-trac king where pixel-wise estimation is gated within tracked bounding-boxes to avoid full-frame estimation. さらに, [28, 2, 3, 23 8] では,全フレーム推定を避けるために,画素単位で推定を行うセグメンテーション・バイ・トラック方式が提案されている。 0.64
To expedite time-consuming pixel-wise matching, RGMP [31] computes similarity responses with convolutions; AGAME [10] discriminates object from background with a probabilistic generative appearance model; RANet [30] adopts cross-correlation on ranked pixel-wise features to match query with reference. RGMP [31]は畳み込みと類似の応答を計算し、AGAME [10]は確率的生成外観モデルで背景からオブジェクトを識別し、RANet [30]は参照とクエリに一致するようにランク付けされたピクセル回りの特徴にクロス相関を採用しています。 0.70
In addition, OSNM [35] propose to spur VOS with network modulation. さらにOSNM[35]は,ネットワーク変調によるVOSの促進を提案する。 0.84
2.3. Memory-based VOS 2.3. メモリベースvos 0.67
Memory-based VOS exploits all historical frames in an external memory for object modeling, an alternative approach for modeling all-frame evolution is via the implementation of recurrent neural networks [7, 33, 25]. メモリベースのVOSは、オブジェクトモデリングのために外部メモリ内のすべての過去のフレームを利用するが、全フレームの進化をモデル化するための代替のアプローチは、リカレントニューラルネットワーク [7, 33, 25] の実装である。 0.64
First proposed in [17], STM is the seminal memory-based method which boosts segmentation accuracy by a large margin. 17]で最初に提案されたSTMは、セグメンテーションの精度を大きなマージンで高めるセミナルメモリベースの方法です。 0.83
As follows, [43, 42] modify STM by introducing Siamese-based semantic similarity and motion-guided attention. 以下の通り, [43, 42] は, シームズに基づく意味的類似性と動き誘導注意を導入することでSTMを改変する。 0.57
To induce heavy computations, GCNet [11] designs GCNet[11]設計による重計算のインジェクション 0.71
a global context module using attentions to reduce temporal complexity executed in the memory. メモリ内で実行される時間的複雑さを減らすために注意を使用するグローバルコンテキストモジュール。 0.71
3. SwiftNet 3. SwiftNet 0.85
In this section, we present SwiftNet by first briefly formulating the problem of matching-based one-shot VOS. 本稿では、マッチングベースのワンショットVOSの問題を初めて簡潔に定式化することでSwiftNetを提示する。 0.62
As follows, PAM is discussed in details, including variationaware trigger as well as pixel-wise memory update and match modules. 以下、PAM について詳細に説明し、Vuvariaware trigger やピクセル単位のメモリ更新、マッチモジュールなどについて説明します。 0.58
LAE is explained afterwards. LAEはその後説明される。 0.69
3.1. Problem Formulation 3.1. 問題定式化 0.71
Given a video sequence V = [x1, x2,··· , xT ] containing object set O = [o1, o2,··· , oN ], its first frame x1 is annotated with mask y1. 対象集合 o = [o1, o2,···· , on ] を含むビデオシーケンス v = [x1, x2,···· , xt ] が与えられると、最初のフレーム x1 はマスク y1 でアノテートされる。 0.87
The goal of one-shot VOS is to delineate objects from the background by generating mask yt for each frame t. Particularly, matching-based VOS computes mask via object modeling and matching. ワンショットVOSの目標は、各フレームtに対してマスクytを生成して、背景からオブジェクトをデラインすることである。特に、マッチングベースのVOSは、オブジェクトモデリングとマッチングを通じてマスクを計算する。
訳抜け防止モード: ショットVOSの目的は、各フレーム t に対してマスク yt を生成することで、背景からオブジェクトをデラインすることである。 matching - オブジェクトモデリングとマッチングによるVOSベースのマスク計算。
0.68
information embedded in reference frames [x1,··· , xt−1] and [y1,··· , yt−1] is exploited to establish object model Mt−1 for up till frame t − 1: 基準フレーム [x1,··· , xt−1] と [y1,··· , yt−1] に埋め込まれた情報を利用して、フレーム t − 1 までのオブジェクトモデル Mt−1 を確立する。 0.82
For object modeling at frame t, historical フレームtにおけるオブジェクトモデリングについて, 歴史 0.71
Mt−1 = φ(I1 · EnR(x1, m1), I2 · EnR(x2, m2), ··· , It−1 · EnR(xt−1, mt−1)), Mt−1 = φ(I1 · EnR(x1, m1), I2 · EnR(x2, m2), ··· , It−1 · EnR(xt−1, mt−1)) 0.86
(2) here It is an indicator function denoting whether frame t involves in modeling, EnR(·) indicates reference encoder for feature extraction, and φ(·) generalizes the object modeling process. (2) ここで、フレーム t がモデリングにかかわるかどうかを示すインジケータ関数であり、enr(·) は特徴抽出のための参照エンコーダを示し、 φ(·) はオブジェクトモデリングプロセスを一般化する。 0.79
For reference-query matching, the task is to search Mt−1 within xt on a pixel-level and generate the object localization map lt: 参照クエリマッチングでは、xt内のmt−1をピクセルレベルで検索し、オブジェクトローカライゼーションマップltを生成する。
訳抜け防止モード: 参照 - クエリマッチングの場合、タスクは to search Mt−1 within xt on a pixel-level and generate the object localization map lt:
0.86
(3) Here γ(·) denotes pixel-wise matching and EnQ(·) refers to the query encoder. (3)ここで γ(·) はピクセル単位のマッチングを表し、EnQ(·) はクエリエンコーダを指します。 0.75
lt = γ(Mt−1, EnQ(x(t)), lt = γ(Mt−1, EnQ(x(t))) 0.93
3 3 0.85
英語(論文から抽出)日本語訳スコア
At test time with SwiftNet, upon the arrival of query frame xt, it is first processed by the query encoder and then passed into the pixel-wise memory match module to generate localization map It. SwiftNetのテスト時には、クエリフレームxtが到着すると、まずクエリエンコーダによって処理され、それからピクセル単位のメモリマッチモジュールに渡されてローカライゼーションマップが生成される。 0.75
It and encoded query features are processed by the decoder to generate mask yt. とエンコードされたクエリ機能はデコーダによって処理され、マスクytを生成する。 0.63
Subsequently, xt, yt, xt−1 and yt−1 are jointly fed into the variation-aware trigger module, and if triggered, they are then handled by LAE for pixel-wise memory update. その後、xt, yt, xt−1 および yt−1 が共同で変分認識トリガーモジュールに供給され、トリガーされると、LAE によってピクセル単位のメモリ更新のために処理される。 0.65
This overall workflow is illustrated in Fig.3. この全体のワークフローは図3に示します。 0.68
3.2. Pixel-Adaptive Memory 3.2. ピクセル適応メモリ 0.71
As the core component of SwiftNet, PAM models object evolution and performs object matching with explicitly compressed spatiotemporal redundancy. SwiftNetのコアコンポーネントとして、PAMはオブジェクト進化をモデル化し、明示的に圧縮された時空間冗長性でオブジェクトマッチングを実行する。 0.58
PAM mainly composes the variation-aware trigger as well as the pixel-wise memory update and match modules. PAMは主に可変対応トリガと画素単位のメモリ更新と一致モジュールで構成されている。 0.75
3.2.1 Variation-Aware Trigger 3.2.1 変量トリガー 0.52
Instead of utilizing merely the first the last frames for object modeling, incorporating all historical frames as reference help establish temporally-coherent object evolution [17, 33]. オブジェクトモデリングに最初のフレームのみを使用する代わりに、すべての歴史的なフレームを参照として組み込むことで、時間的に一貫性のあるオブジェクトの進化を確立する [17, 33]。 0.61
Nonetheless, this approach is rather impractical considering its prohibitive temporal redundancy and computation overhead. それでも、このアプローチは、時間的冗長性と計算のオーバーヘッドを考えると、かなり非現実的です。 0.48
As a straightforward solution, previous methods sample historical frames at a predefined pace [17, 20], which indiscriminately reduces temporal redundancy and leads to accuracy degradation. 簡単な解法として,過去の手法では,事前定義されたペース[17,20]で過去のフレームをサンプリングすることで,時間的冗長性を無差別に低減し,精度を低下させる。 0.59
To explicitly compress temporal redundancy, variationaware trigger module evaluates inter-frame variation frameby-frame, and activates memory update once the accumulated variation surpass threshold Pth. 時間的冗長性を明示的に圧縮するために、変動認識トリガモジュールはフレーム間変動フレームをフレーム単位で評価し、累積変動がPthを超えるとメモリ更新を起動する。 0.63
Specifically, given xt, yt and xt−1 and yt−1, we separately compute frame difference Df and mask difference Dm as: t − xi,c (xi,c 具体的には、xt, yt, xt−1 と yt−1 を与えられたとき、フレーム差 Df とマスク差 Dm をそれぞれ t − xi,c (xi,c) として計算する。 0.67
(cid:88) t−1)/255, (cid:88) t−1)/255 0.79
f = Di (4) f = ダイ (4) 0.79
c∈{R,G,B} (5) at each pixel i we update the overall running variation degree P as: c∈{R,G,B} (5) それぞれの画素 i で全体の実行変動度 P を次のように更新する。 0.87
m = (yi t−1), m = (yi) t−1)。 0.83
Di t − yi (cid:40) ダイ t − yi (cid:40) 0.77
P = P + 1, P, P = P + 1, P, 0.85
f > thf or Di f > thf または Di 0.98
m > thm if Di otherwise m > thm もしそうでなければ 0.70
(6) Once P exceeds Pth, PAM triggers a new round of memory update as described in 3.2.2. (6) p が pth を超えると、pam は 3.2.2 に記載された新しいメモリ更新をトリガーする。 0.75
Empirically, Pth equals X yields best performance. 経験的には、Pth は X に等しい。 0.60
3.2.2 Pixel-wise Memory Update 3.2.2ピクセルメモリ更新 0.58
In terms of matching-based VOS, memory infers a temporally-maintaine d template which characterizes object マッチングベースのvosでは、メモリはオブジェクトを特徴付ける時間保存テンプレートを推論する 0.64
4 Figure 4. An illustration of the compressed non-local computation, sub-script t is omitted for brevity. 4 図4。 圧縮非局所計算、サブスクリプト t の図は、簡潔さのために省略される。 0.74
evolution over time. 時間とともに進化する。 0.55
In the existing literature, memory update and matching typically adopt full-frame operations, where reference frames are concatenated into memory and matched with query frame intactly [17, 42]. 既存の文献では、メモリ更新とマッチングは一般的にフルフレーム操作を採用しており、参照フレームはメモリに結合され、クエリフレームと完全にマッチする [17, 42]。 0.73
This strategy induces heavy storage and computation overhead, as redundant pixels with no benefits for object modeling are incorporated with discrimination. この戦略は、オブジェクトモデリングのメリットのない冗長なピクセルを識別に組み込むため、重いストレージと計算オーバーヘッドを引き起こします。 0.72
To compress redundant pixels from full frames, PAM introduces pixel-wise memory update and match modules. 冗長なピクセルをフルフレームから圧縮するために、PAMはピクセル単位のメモリ更新とマッチモジュールを導入します。 0.60
For memory update, if frame xt is triggered, PAM first discovers pixels in xt that demonstrates significant variations from itself in memory Bt, then incrementally updates newly discovered features (as displayed in xt) into the memory. メモリ更新の場合、フレーム xt がトリガーされると、PAM はまず xt のピクセルを発見し、メモリ Bt のそれ自身から有意な変化を示し、次に新しく発見された機能 (xt に表示されるように) をメモリにインクリメンタルに更新します。 0.69
Through EncR, xt is encoded into key KQ,t ∈ RH×W×C/8 and value VQ,t ∈ RH×W×C/2 features, key features are with shallower depth to facilitate efficient matching. EncR を通じて、xt はキー KQ,t ∈ RH×W×C/8 と値 VQ,t ∈ RH×W×C/2 にエンコードされ、主特徴はより浅い深さで効率的なマッチングを容易にする。 0.72
In the experiment c is set to 256. 実験では、c は 256 に設定されます。 0.72
Similarly, memory B containing kt pixels is encoded into KR,t ∈ Rkt×C/8 and VR,t ∈ Rkt×C/2. 同様に、kt 画素を含むメモリ B は KR,t ∈ Rkt×C/8 と VR,t ∈ Rkt×C/2 に符号化される。 0.75
To discover varied pixels, we flatten KQ,t and compute cosine similarity matrix Sc,t ∈ Rkt×HW as: 多様な画素を発見するために、KQ,t を平らにし、コサイン類似行列 Sc,t ∈ Rkt×HW を次のように計算する。
訳抜け防止モード: 様々なピクセルを発見する。 我々は KQ, t を平らにし、コサイン類似性行列 Sc, t ∈ Rkt×HW as :
0.78
Si,j c,t = Si,j c,t = 0.85
Q,t · K j K i Q,t(cid:107)(cid:107 )K j (cid:107)K i Q,t · K j K i Q,t(cid:107)(cid:107 )K j (cid:107)K i 0.95
R,t R,t(cid:107) , R,t r,t(cid:107) , 0.85
(7) for each row i in St, we find the largest score as the feature similarity between pixel i in the memory and in frame t. In formulation, we compute pixel similarity vector Vp,t as: (7) St の各行 i に対して、メモリ内のピクセル i とフレーム t の間の特徴類似度として最大のスコアを見つけます。定式化では、ピクセル類似度ベクトル Vp,t を次のように計算します。 0.79
i Sc,t[i, :], 私は Sc,t[i, :], 0.61
Vp,t = arg max Vp,t = arg max 0.85
(8) we sort Vp,t in increasing order of similarity (original index is kept), then the select top β percents pixels for memory update. (8) 類似度の増加順に Vp,t をソートし(元のインデックスは保持されます)、メモリ更新のために選択されたトップβパーセントピクセル。 0.81
These set of pixels exhibit most severe feature variations. これらのピクセルセットは、最も厳しい特徴のバリエーションを示す。 0.63
Here β is a hyper-parameter controlling the balance between method efficiency and update comprehensiveness, and is experimentally set to 10% for the best performance. ここで、βはメソッド効率と更新包括性の間のバランスを制御するハイパーパラメータであり、最高の性能で10%に設定されている。 0.71
To execute the memory update, we find feature vectors of the selected set of pixels from KQ,t and VQ,t according to メモリ更新を実行するには、KQ、t、VQ、tから選択されたピクセルセットの特徴ベクトルを見つけます。 0.72
英語(論文から抽出)日本語訳スコア
Figure 5. An illustration of LAE. 図5。 LAEのイラスト。 0.68
Image feature maps are generated via convolutions, mask feature maps are computed involving revered sub-pixel. 画像特徴マップは畳み込みによって生成され、マスク特徴マップは残響サブピクセルを含む計算を行う。 0.68
indexes as in Vp,t, then directly add them into memory B which is instantiated as an array of feature vectors. Vp,t のようなインデックスは、直接メモリ B に追加され、特徴ベクトルの配列としてインスタンス化される。 0.80
3.2.3 Pixel-wise Memory Match 3.2.3 ピクセルワイドメモリマッチング 0.50
As illustrated in Fig. 3, segmentation mask is decoded utilizing query value VQ and localization map I. I provides strong spatial prior w.r.t. 図に示すように。 3) セグメント化マスクはクエリ値VQとローカライゼーションマップIを用いてデコードされる。 0.69
the foreground object and is produced via reference-query matching. 前景オブジェクトは参照-クエリマッチングによって生成される。 0.55
In essence, this matching process computes similarity between pixels from the reference and query frames, and can be instantiated with cross-correlation [2, 28], neural networks [31, 10], distance measuring [26], and non-local computation [17], etc. 本質的には、このマッチングプロセスは、参照フレームとクエリフレームからのピクセル間の類似度を計算し、相互相関[2, 28]、ニューラルネットワーク[31, 10]、距離測定[26]、および非局所計算[17]などでインスタンス化することができる。 0.78
Comparatively, non-local leads to excellent accuracy performance but suffers heavy computation expenses in the context of full-frame operations. 比較すると、非ローカルは優れた精度性能をもたらすが、フルフレーム操作の文脈で重い計算費用を被る。 0.67
In PAM, we implement pixel-wise matching to achieve efficient and accurate segmentation. PAMでは,効率よく正確なセグメンテーションを実現するためにピクセルワイズマッチングを実装している。 0.61
In Fig. 4 we illustrate the pipeline of pixel-wise matching computation. 図1。 4) ピクセル単位でのマッチング計算のパイプラインを示す。 0.64
At first, query frame key KQ,t and the memory key KR,t are reshaped into vectors of size HW × C/8 and C/8 × K. We then calculate dot-product similarity between corresponding vectors to produce localization map It ∈ RHW×K as: I i,j t = exp(K i まず、クエリフレームキーkq,tとメモリキーkr,tをhw×c/8とc/8×kの大きさのベクトルに再構成し、対応するベクトル間のドット生成類似度を計算し、rhw×kを次のように定位写像とする。 0.62
(9) It is passed through a Softmax layer and further multiplied with memory value VR,t. (9)それはSoftmaxの層を通して渡され、更に記憶価値VR、tと掛けられます。 0.75
The resulted ∈ RHW×C/2 tensor is concatenated with VQ,t to form the activated feature VD ∈ RH×W×C, which is then input into the decoder. 得られた∈ RHW×C/2 テンソルは、VQ,t と結合して活性化された特徴 VD ∈ RH×W×C を形成し、デコーダに入力される。 0.75
We emphasize that, our approach is different to normal non-local computation implemented in [17] such that, we eliminate redundant pixels from the full-frame memory so that map I, being the computation bottleneck with size ∈ RHW×HW T , is significantly reduced to ∈ RHW×K. この手法は[17]で実装された通常の非局所計算とは異なり、全フレームメモリから冗長なピクセルを排除して、サイズ ∈ RHW×HW T の計算ボトルネックである写像 I を ∈ RHW×K に有意に減少させる。
訳抜け防止モード: 私たちは、私たちのアプローチは[17]で実装された通常の非局所計算とは異なります。 フルフレームメモリから冗長なピクセルを排除します。 map I, as the computing bottleneck with size ∈ RHW×HW T, は ∈ RHW×K に有意に減少する。
0.79
K is the size of pixel-wise memory and is strongly controlled by the update pace β. Kは画素メモリのサイズであり、更新ペースβによって強く制御される。 0.83
By explicitly compressing redundancy during memory update and matching, storage メモリ更新とマッチング,ストレージの間,冗長性を明示的に圧縮する 0.69
Q,t (cid:12) K j Q,t (cid:12) K j 0.96
R,t), Figure 6. An illustration of SwfitNet, EnR, EnQ, Dec denote reference and query encoder as well as decoder, respectively. R,t)。 図6。 SwfitNet, EnR, EnQ, Decのイラストは、それぞれ参照エンコーダとクエリエンコーダとデコーダを表す。 0.71
requirement and computation speed are both optimized in SwiftNet without considerable loss of segmentation accuracy. 要件と計算速度はSwiftNetで最適化され、セグメンテーション精度が大幅に低下します。 0.69
3.3. Light-Aggregation Encoder 3.3. 光アグリゲーションエンコーダ 0.71
As shown in Fig.3, SwiftNet adopts an encoder-decoder architecture wherein both reference and query frames are processed with encoders EncR and EncQ. 図3に示すように、SwiftNetはエンコーダ-デコーダアーキテクチャを採用し、参照フレームとクエリフレームの両方がエンコーダEncRとEncQで処理される。 0.69
In existing memory-based VOS solutions [17, 42], the encoding process is time-consuming as each frame is processed by both EncR and EncQ. 既存のメモリベースのVOSソリューション[17, 42]では、各フレームがEncRとEncQの両方によって処理されるため、エンコーディングプロセスは時間がかかります。
訳抜け防止モード: 既存のメモリ - ベースの VOS ソリューション [17, 42 ] エンコーディングプロセスは時間であり、各フレームはEncRとEncQの両方で処理される。
0.86
In SwiftNet, after xt is first encoded by EnQ, we buffer the generated feature maps and, if frame t is triggered for update, these feature maps are directly utilized by EnR without passing-through the ResNet backbone. SwiftNetでは、xtが最初にEnQによってエンコードされた後、生成された機能マップをバッファし、フレームtが更新のためにトリガーされた場合、これらの機能マップはResNetバックボーンを通過せずにEnRによって直接利用されます。 0.62
Efficiency comparison w.r.t. 効率比較 w.r.t. 0.59
different encoding strategies are listed in 1. 異なるエンコーディング戦略が 1 に列挙されている。 0.67
Considering their superior feature extraction capability [36, 14, 16], we instantiate both EnR and EnQ with ResNet-based [4] backbones. 優れた特徴抽出機能 [36, 14, 16] を考えると、EnRとEnQの両方をResNetベースの[4]バックボーンでインスタンス化する。
訳抜け防止モード: 優れた特徴抽出能力について [36, 14, 16 ] EnR と EnQ の両方を ResNet - based [ 4 ] backbones でインスタンス化する。
0.79
As shown in Fig. 2, beyond feature extraction from the input frame, EnR is also responsible for frame-mask aggregation. 図に示すように。 入力フレームからの特徴抽出以外にも、EnRはフレームマスク集約の責任も負う。 0.70
Conventionally, this is realized by low-level concatenation between mask and frame [17, 26, 31], which suffers from two shortcomings. 従来はマスクとフレーム [17, 26, 31] の低レベル結合によって実現されており、2つの欠点がある。 0.74
For one, low-level concatenation strategy, i.e. ひとつは、低レベルの連結戦略、すなわち、 0.67
concatenating before input to EnR, enforces separate forward-passes on EnQ and EnR with different inputs and induces extra time expense. EnRへの入力の前に結合し、異なる入力でEnQとEnRに別々のフォワードパスを強制し、余分な時間費用を発生させる。
訳抜け防止モード: EnRへの入力の前に連結する 別々のフォワードを強制する - 異なる入力でEnQとEnRを渡す 余分な時間費用を 生み出します。
0.67
Secondly, this strategy increases model size as two encoders cannot share weights. 第二に、2つのエンコーダが重みを共有できないため、この戦略はモデルサイズを増加させる。 0.55
To resolve these problems, we design the novel lightaggregation encoder as shown in 5. これらの問題を解決するために,5 に示すような新しい光集約エンコーダを設計する。 0.68
The upper blue entities represent buffered feature maps encoded by EnQ, the bottom orange ones show feature transformation hierarchy of the input mask. 上位の青実体はEnQによってエンコードされたバッファ付き特徴マップを表し、下部のオレンジ実体は入力マスクの特徴変換階層を示す。 0.74
Features aligned vertically in the same column are with the same size and concatenated together to facilitate multi-scale aggregation. 同じ列に垂直に配置された特徴は同じサイズで結合され、マルチスケールアグリゲーションを容易にします。 0.74
In particular, to instantiate feature transformation of the input mask, we implement reversed sub-pixel for down-samplings and 1×1 convolutions for channel manipulation. 特に,入力マスクの特徴変換をインスタンス化するために,ダウンサンプリングのための逆サブピクセルとチャネル操作のための1×1畳み込みを実装した。 0.65
As illustrated in 6, reversed subpixel technique is motivated by the popular up-sampling method in super-resolution [21], which shrinks spatial dimension of features without information loss. 6 に示すように,情報損失のない特徴の空間的次元を縮小する超高解像度 [21] におけるアップサンプリング手法によって,リバースサブピクセル技術が動機付けられる。 0.73
5 5 0.85
英語(論文から抽出)日本語訳スコア
Method low-level high-level LAE 方法 低レベル高レベルLAE 0.73
w/o pixel-wise w pixel-wise FPS J&F 51 78.0 71 75.4 78.2 70 w/o pixel-wise w pixel-wise FPS J&F 51 78.0 71 75.4 78.2 70 0.65
J&F 77.5 73.6 77.8 J&F 77.5 73.6 77.8 0.63
FPS 22 37 35 FPS 22 37 35 0.85
Table 1. Ablation study of LAE on Davis 2017 validation set. 表1。 Davis 2017 検証セットにおける LAE のアブレーション研究 0.76
Metric periodical sampling (5) メートル法 定期サンプリング(5) 0.63
full frame pixel-wise フルフレーム ピクセル回り 0.67
update & match アップデート&マッチ 0.75
J&F FPS J&F FPS J&F FPS J&F FPS 0.85
78.2 35 77.8 65 78.2 35 77.8 65 0.65
variation-aware variation‐aware 0.57
trigger 78.1 52 77.8 70 トリガー78.1 52 77.8 70 0.60
Table 2. Ablation study of PAM on Davis 2017 validation set. 表2。 Davis 2017 の検証セットに関する PAM のアブレーション研究 0.78
4. Experiments In this section we first discuss implementation details of the experiments, then elaborate the ablation study specifying contributions of different components proposed in SwiftNet. 4. 実験 この節では、まず実験の実装の詳細について論じ、次にswiftnetで提案されているさまざまなコンポーネントの貢献を詳述したアブレーション研究を詳述する。 0.72
Comparisons with other stat-of-the-art methods on DAVIS 2016 & 2017 and YouTube-VOS datasets are provided as follows, where SwiftNet demonstrates the best overall segmentation accuracy and inference speed. DAVIS 2016 & 2017およびYouTube-VOSデータセットの他の最新手法と比較すると、SwiftNetは最高のセグメント化精度と推論速度を示しています。 0.76
All experiments are implemented in PyTorch [18] on 1 NVIDIA P100 GPU, source code will be released upon publication. すべての実験はNVIDIA P100 GPU上でPyTorch [18]で実装され、ソースコードが公開される。 0.78
Particularly, SwiftNet adopting both ResNet-18 and ResNet-50 [4] backbones are experimented to show the favorable compatibility and efficacy of our method. 特に,resnet-18とresnet-50 [4]バックボーンを採用したswiftnetでは,この方法の適合性と有効性を示す実験が行われている。 0.60
4.1. Datasets and Evaluation Metrics DAVIS 2016 & 2017. 4.1. データセットと評価メトリクス DAVIS 2016 & 2017。 0.74
DAVIS 2016 dataset contains in total 50 single-object videos with 3455 annotated frames. DAVIS 2016データセットには、合計50のシングルオブジェクトビデオと3455の注釈付きフレームが含まれている。 0.53
Considering its confined size and generalizability, it is soon supplemented into DAVIS 2017 dataset comprising 150 sequences with 10459 annotated frames, a subset of which exhibit multiple objects. 制限されたサイズと汎用性を考慮して、すぐに10459の注釈付きフレームを持つ150のシーケンスからなるDAVIS 2017データセットに補完されます。 0.70
Following the DAVIS standard, we utilize mean Jaccard J index and mean boundary F score, along with mean J &F to evaluate segmentation accuracy. DAVIS規格に従って、平均Jaccard J指数と平均境界Fスコアと平均J&Fを使用してセグメント化精度を評価します。 0.78
We adopt the Frames-Per-Second (FPS) metric to measure segmentation speed. セグメンテーション速度を測定するためにfps(frames-per-secon d)メトリックを採用する。 0.59
YouTube-VOS. YouTube-VOS。 0.69
Being the largest dataset at the present, YouTube-VOS encompasses totally 4453 videos annotated with multiple objects. 現在最大のデータセットであるyoutube-vosは、4453本のビデオに複数のオブジェクトをアノテートしている。 0.61
In particular, its validation set possesses 474 sequences covering 91 object classes, 26 of which are not visible in the training set, and thus facilitating evaluations w.r.t. 特に、その検証セットは、91のオブジェクトクラスをカバーする474のシーケンスを持ち、そのうち26はトレーニングセットで見えないため、評価をw.r.tで容易にすることができる。
訳抜け防止モード: 特に、その検証セットは91のオブジェクトクラスをカバーする474のシーケンスを持つ。 トレーニングセットでは、26が表示されません。 評価はw.r.t.
0.58
seen and unseen object classes to reflect method generalizability. メソッドの一般化性を反映するオブジェクトクラスを表示および表示しない。 0.54
On YouTube-VOS we report J &F for accuracy assessment, the overall score G is generated as the average of J &F on seen and unseen classes. YouTube-VOSでは、J&Fの精度評価を報告し、全体スコアGを、見知らぬ授業におけるJ&Fの平均値として生成する。 0.65
Figure 7. The curve of J&F and FPS changing with ratio β of updating pixels. 図7。 J&FとFPSの曲線は、更新画素の比βで変化する。 0.71
4.2. Training and Inference 4.2. トレーニングと推論 0.71
4.2.1 Training SwiftNet is first pre-trained on simulated data generated upon MS-COCO dataset [13], then finetuned on DAVIS 2017 and YouTube-VOS Dataset respectively. 4.2.1 訓練 SwiftNetはまず、MS-COCOデータセット[13]で生成されたシミュレーションデータに基づいて事前トレーニングされ、それぞれDAVIS 2017とYouTube-VOS Datasetで微調整される。 0.55
In both training stages, input image size is set to 384 × 384, and we adopt Adam optimizer with learning rate starts at 1e-5. どちらの訓練段階でも、入力画像サイズは384×384に設定され、学習速度が1e-5から始まるAdamOptimatorを採用する。 0.74
The learning rate is adjusted with polynomial scheduling using the power of 0.9. 学習率を0.9のパワーを用いて多項式スケジューリングで調整する。 0.76
All batch normalization layers in the backbone are fixed at its ImageNet pre-trained value during training. バックボーン内のすべてのバッチ正規化レイヤは、トレーニング中にImageNetの事前トレーニング値で固定されます。 0.61
We use batch size of 4, which is realized on 1 GPU via manual accumulation. 手動蓄積により1GPUで実現した4のバッチサイズを使用しています。 0.76
MS-COCO Pre-train. MS-COCOプレトレイン。 0.48
Considering the scarcity of video data and to ensure the generalizability of SwiftNet, we perform pre-training on simulated video clips generated upon MS-COCO dataset [13]. ビデオデータの不足を考慮し,SwiftNetの一般化性を確保するため,MS-COCOデータセット[13]で生成されたシミュレーションビデオクリップを事前トレーニングする。 0.74
Specifically, we randomly crop foreground objects from a static image, which are then pasted onto a randomly sampled background image to form a new image. 具体的には、静止画像から前景オブジェクトをランダムに抽出し、ランダムにサンプリングした背景画像にペーストして新しい画像を生成する。 0.75
Affine transformations such as rotation, resize, sheering, and translation are applied to foreground and background separately to generate deformation and occlusion, and we maintain an implicit motion model to generate clips with length of 5. 回転、サイズ変更、シャーリング、翻訳などのアフィン変換を前景と背景に別々に適用して変形と閉塞を発生させ、暗黙のモーションモデルを維持し、5の長さのクリップを生成します。 0.73
SwiftNet is trained with simulated clips for 150000 iterations and the J &F reaches 65.6 on DAVIS 2017 validation set, which demonstrates the efficacy of our simulated pre-training. SwiftNetは150000回のイテレーションでシミュレートされたクリップでトレーニングされ、J&FはDAVIS 2017バリデーションセットで65.6に達します。 0.65
DAVIS 2017 & YouTube-VOS Finetune. DAVIS 2017とYouTube-VOS Finetune。 0.86
After pretraining, we finetune SwiftNet on DAVIS 2017 and YouTube-VOS training set for 200000 iterations. 事前トレーニングの後、DAVIS 2017とYouTube-VOSトレーニングセットでSwiftNetを200000回のイテレーションで微調整します。 0.64
At each iteration, we randomly sampled 5 images consecutively (with random skipping step smaller than 5 frames) and estimate corresponding segmentation masks one after another. 各イテレーションで、5つのイメージを連続してランダムにサンプリングし(ランダムなスキップステップは5フレームより小さい)、対応するセグメンテーションマスクを次々に見積もった。 0.71
Pixelwise memory update and match modules are executed on every frame within the 5-frame clip. pixelwise memory updateとmatchモジュールは、5フレームクリップ内の各フレームで実行される。 0.81
6 6 0.85
英語(論文から抽出)日本語訳スコア
Figure 8. Visualization of quantitative results of SwiftNet (ResNet-50) on DAVIS17 validation set. 図8。 DAVIS17検証セット上のSwiftNet(ResNet-50)の定量結果の可視化。 0.75
4.2.2 Inference . Given a test video accompanied by its first frame annotated mask, at inference time we frame-by-frame segment the video using SwiftNet. 4.2.2推論 . 最初のフレームアノテートされたマスクを伴ってテストビデオがあると、推論時にSwiftNetを使ってビデオをフレーム単位で分割します。 0.66
Particularly, memory at the first frame, M0, is initialized with feature maps output by the encoder given first frame image and mask, then it is updated online throughout the inference. 特に、第1フレームのメモリM0は、第1フレームの画像とマスクが与えられたエンコーダによって出力された特徴マップで初期化され、推論を通してオンライン更新される。 0.75
At frame t, we utilize memory Mt−1 and frame image It to compute segmentation mask mt with SwiftNet. フレーム t ではメモリ Mt−1 とフレームイメージ It を用いてセグメント化マスク mt を SwiftNet で計算する。 0.83
If frame t is triggerd, mt is feed into the LAE and to update the memory for further computations. フレーム t がトリガーされると、mt は LAE に入力され、メモリを更新してさらなる計算を行う。 0.73
4.3. Ablation Study 4.3. アブレーション研究 0.70
Ablation study is conducted on DAVIS 2017 validation set to specify the contributions of different components in SwiftNet. SwiftNetのさまざまなコンポーネントのコントリビューションを指定するために、DAVIS 2017バリデーションセットでアブレーション調査が行われている。
訳抜け防止モード: DAVIS 2017バリデーションセットにおけるアブレーション研究 SwiftNetのさまざまなコンポーネントのコントリビューションを指定する。
0.69
4.3.1 Light-Aggregation Encoder 4.3.1 光アグリゲーションエンコーダ 0.47
To demonstrate the efficacy of the proposed LAE, we additionally develop two baseline reference encoders for comparison. 提案するlaeの有効性を示すために、比較のために2つのベースライン参照エンコーダを開発した。 0.61
The first baseline instantiates low-level aggregation as adopted in STM [17], where mask produced by the last frame is directly concatenated with raw image. 最初のベースラインは、最後のフレームによって生成されたマスクが生の画像と直接結合されるSTM [17]で採用されている低レベルの凝集をインスタンス化します。 0.63
This encoder maintains high-resolution mask but requires two separate encoders for reference and query frames, hence heavier model size. このエンコーダは高解像度のマスクを維持しますが、参照フレームとクエリフレームには2つの別々のエンコーダが必要です。 0.57
The second baseline implements high-level aggregation as in CFBI [37], where segmentation mask is first down-sampled to different feature map resolutions and then fused respectively. 第2のベースラインは、CFBI[37]のようにハイレベルアグリゲーションを実装し、セグメンテーションマスクは、まず異なる特徴マップの解像度にダウンサンプリングされ、それぞれ融合される。 0.56
This baseline enables encoder reuse between reference query frames, but spatial details of the mask are lost during pooling-based down-samplings. このベースラインは、参照クエリフレーム間のエンコーダ再利用を可能にするが、プールベースのダウンサンプリング中にマスクの空間的詳細が失われる。 0.57
As shown in Table 1, low-level baseline reveals better accuracy while high-level baseline runs faster, conforming to the fact that the low-level one involves more sophisticated feature aggregations between image and mask. 表1に示すように、低レベルベースラインは、低レベルベースラインが画像とマスクの間のより洗練された機能集約を含むという事実に従って、高速に実行しながら、より良い精度を明らかにする。 0.65
Notably, LAE surpasses the low-level baseline in both J &F and FPS (by 37.1%), and outperforms the high-level baseline by 3.9% in J &F while keeping comparable FPS. 特にLAE J&FとFPSの両方の低レベルベースライン(37.1%)を超え、同等のFPSを維持しながら、高レベルベースラインをJ&Fで3.9%上回る。 0.58
This results strongly suggest that LAE promotes thorough mask-frame aggregation and elevates segmentation speed. この結果、LAEはマスクフレームの集約を徹底し、セグメンテーション速度を高めることを強く示唆している。 0.54
4.3.2 Pixel-Adaptive Memory 4.3.2 ピクセル適応メモリ 0.48
In this section we showcase the efficacy of PAM in elevating accuracy and speed. 本稿では,PAMの精度と速度向上効果について紹介する。 0.73
Table 2 row-wise illustrates the contribution of pixel-wise memory update and match modules in eliminating spatial redundancy, where it significantly boosts processing speed up by 30 and 28 PFS in both temporal strategies, and only experience merely 0.4% drop in J &F. Column-wise reveals the contribution of variationaware trigger in compressing temporal redundancy, where it raises segmentation speed by 17 and 15 FPS in both spatial strategies, and at most 0.1% J &F is reported. 表2は、空間的冗長性排除における画素単位のメモリ更新と一致モジュールの寄与を図示し、どちらの時空間戦略においても処理速度を30~28PS向上させ、J&Fをわずか0.4%低下させただけである。
訳抜け防止モード: 表2行 - ピクセルの貢献をうまく説明します - 賢明なメモリ更新とモジュールのマッチ。 空間的な冗長性を排除します これにより、両方の時間戦略で30および28 PFSの処理速度が大幅に向上します。 そしてJ&Fカラムの0.4%の低下しか経験しません。 -時間的冗長性の圧縮における変位トリガーの寄与を賢明に明らかにする。 両方の空間戦略で17FPSと15FPSのセグメンテーション速度を上げます。 そして、少なくとも0.1%のJ&Fが報告されます。
0.59
Notably here we experiment with periodic sampling at a pace of 5 frame, which is tested to be the optimal parameter as in [17]. 特に,[17]のように最適なパラメータとして,5フレームのペースで周期的なサンプリング実験を行った。 0.70
To provide a up-closer view of PAM, in Fig. 図中のPAMのクローズアップビューを提供する。 0.67
7 we illustrate the variation of J &F and FPS w.r.t. 7 J&FとFPS w.r.tの変動を示す。 0.77
different spatial update ratio β and temporal trigger strategy. 異なる空間的更新比βと時間的トリガー戦略。 0.82
As shown in orange, J &F increases in accordance with enlarged β, i.e. オレンジで示されるように、J&F は β の増大に応じて増加する。 0.83
segmentation accuracy will grow if more percentage of pixels are updated. ピクセルの比率が更新されれば セグメンテーションの精度が上がります 0.74
It is worth noting that, β = 10% yields the best accuracy while larger value shows no significant improvement. β = 10%は最高の精度を得られますが、より大きな値は有意な改善を示しません。 0.86
Besides, temporal trigger brings minute effect in accuracy. さらに、時間的トリガーは精度に微妙な効果をもたらす。 0.59
The blue color draws variations w.r.t. 青い色はバリエーションw.r.tを描画します。 0.49
FPS, where larger β steadily decreases FPS, and variation-aware trigger constantly increases FPS in under different β. より大きなβがFPSを着実に減少させるFPSと、異なるβ下での変動認識トリガーはFPSを常に増加させる。 0.64
Notably, the gap between blue curves are enlarged with larger β, conforming to the fact that more spatiotemporal redundancy are compressed by the variation-aware trigger in cases of heavy spatial update. 特に、青い曲線間のギャップは大きなβで拡大され、重度空間更新の場合の変動認識トリガによってより時空間冗長性が圧縮されるという事実に従っている。 0.74
7 7 0.85
英語(論文から抽出)日本語訳スコア
4.4. State-of-the-art Comparison 4.4.1 DAVIS 2017 4.4. 最新の比較 4.4.1 DAVIS 2017 0.63
Comparison results on Davis 2017 validation set are listed in Table 3. Davis 2017 検証セットの比較結果を表3に示します。 0.78
As shown, both SwiftNet versions demonstrate better J &F, J , and F scores than all other real-time methods by a large margin. 示すように、どちらのSwiftNetバージョンも、他のリアルタイムメソッドよりも大きなマージンで、J&F、J、Fスコアが向上している。 0.69
In particular, SwiftNet with ResNet-18 runs the fastest at 70 FPS, outperforming the second fastest SAT-fast [2] in J &F by 10.7%. 特に、SwiftNet with ResNet-18は70FPSで、J&Fで2番目に速いSAT-fast [2]を10.7%上回っている。 0.76
This considerable lead is because that SAT updates global feature with cropped regions containing heavy background noise, while SwiftNet updates memory bank with useful and discriminative pixels and filters out redundant and noise regions. この大きなリードは、satが大きなバックグラウンドノイズを含むクロッピング領域でグローバル機能を更新し、swiftnetがメモリバンクを有用で識別可能なピクセルで更新し、冗長なノイズ領域をフィルタアウトするためである。 0.65
SwiftNet with ResNet-50 not only meets real-time requirement, but also reaches 81.1 in J &F score, which ranks the second best in both real-time and slow methods. SwiftNet with ResNet-50は、リアルタイム要件を満たすだけでなく、J&Fスコアで81.1に達し、リアルタイムとスローメソッドの両方で2番目に高い。 0.71
STM [17] reports the best J &F at 81.8, which is 0.9% better than ours, while we runs almost 4 times faster than STM. STM [17] は 81.8 で最高の J & F を報告しています。
訳抜け防止モード: STM [ 17 ] 81.8 で最高の J & F を報告します。 我々はSTMよりもほぼ4倍速く実行しながら、私たちのものよりも0.9%良いです。
0.71
This significant improvement of SwiftNet is achieved by explicitly compressing spatiotemporal redundancy resides in STM, which adopts heavy periodical sampling and fullframe matching. SwiftNetのこの大幅な改善は、STMに存在する時空間冗長性を明示的に圧縮することで達成される。 0.60
In addition, GCNet [11] also strives to accelerate memory-based VOS by designing light-weight memory reading and writing strategies. さらに、GCNet [11]は、軽量のメモリ読み取りと書き込み戦略を設計することにより、メモリベースのVOSの高速化にも努めています。
訳抜け防止モード: さらに gcnet [11 ] も 軽量なメモリ読取および書き込み戦略を設計することで、メモリ−ベースのvosを高速化する。
0.72
As shown, it runs at comparable speed with our ResNet-18 version, while we exceeds GCNet in term of J &F by 12.0%. 図のように、ResNet-18バージョンと匹敵する速度で動作しますが、J&FではGCNetを12.0%上回っています。 0.70
Fig 8 shows qualitative results on DAVIS17 validation set produced by SwiftNet with ResNet-50. 図8は、SwiftNetがResNet-50で作成したDAVIS17検証セットに関する質的な結果を示している。 0.53
The first row demonstrates that SwiftNet is robust against deformation, the second to the fourth row reveal that SwiftNet is highly capable in handling fast motion, similar distractor, and tremendous occlusion, respectively. 第1行はSwiftNetが変形に対して堅牢であることを示し、第2行と第4行は、SwiftNetがそれぞれ高速動作、同様の逸脱器、および巨大な閉塞を処理する能力があることを明らかにしている。 0.55
4.4.2 DAVIS 2016 4.4.2 DAVIS 2016 0.59
Since DAVIS 2016 only contains single-object sequences, thus most methods experience considerable performance gains when transferred from DAVIS 2017, and the accuracy gap between ResNet-18 and ResNet-50 SwiftNet is reduced because the demands for highly semantical features are alleviated. DAVIS 2016は単一オブジェクトシーケンスのみを含むため、ほとんどのメソッドはDAVIS 2017から転送するとかなりのパフォーマンス向上を経験し、意味性の高い機能に対する要求が軽減されるため、ResNet-18とResNet-50 SwiftNetの精度ギャップが減少します。 0.68
It is worth noting that, SwiftNet with both ResNet-18 and ResNet-50 outperform all other methods in segmentation accuracy, where the ResNet-50 version leads the second best STM by 1.2% and 74.8% in terms of J &F and FPS. なお、ResNet-18とResNet-50の両方のSwiftNetはセグメンテーション精度で他のすべてのメソッドより優れており、ResNet-50バージョンはJ&FとFPSで2番目に優れたSTMを1.2%、74.8%リードしている。 0.70
4.4.3 YouTube-VOS 4.4.3 YouTube-VOS 0.39
As testing on the large YouTube VOS validation set is timeconsuming, here we show comparison results with most representative methods. 大規模なYouTube VOS検証セットのテストには時間がかかるため、ほとんどの代表的な方法との比較結果を示す。 0.72
SwiftNet with ResNet-50 considerably outperform all other real-time methods in accuracy, leading the second best GCNet by 6.0% in term of J &F. SwiftNetとResNet-50は、他のリアルタイムメソッドの精度を大幅に上回っており、J&Fで2番目に優れたGCNetを6.0%上回っている。 0.64
Method PReMVOS [15] CINM [?] 方法 PreMVOS [15] CINM [in Japanese] 0.69
OnAVOS [27] OSVOS [1] OSVOS-s[?] OnAVOS [27] OSVOS [1] OSVOS-s[?] 0.85
STCNN [32] FAVOS [3] FEELVOS [26] Dyenet [?] STCNN [32] FAVOS [3] FEELVOS [26] Dyenet [in Japanese] 0.84
STM [17] Fasttan [8] RGMP [31] Fasttmu [23] AGAME [10] FRTM-VOS [20] GCNet [11] RANet [30] SiamMask [28] TVOS [41] SAT [2] FRTM-VOS-fast [20] SAT-fast [2] SwiftNet(ResNet-50) SwiftNet(ResNet-18) STM [17] Fasttan [8] RGMP [31] Fasttmu [23] AGAME [10] FRTM-VOS [20] GCNet [11] RANet [30] SiamMask [28] TVOS [41] SAT [2] FRTM-VOS-fast [20] SAT-fast [2] SwiftNet(ResNet-50) SwiftNet(ResNet-18) 0.98
OL J &F √ √ 77.8 √ 67.5 √ 67.9 √ 60.3 68.0 × 61.7 × 58.2 × √ 71.5 69.1 × 81.8 × 75.9 × 66.7 × 70.6 × √ 70.0 76.7 × 71.4 × 65.7 × 56.4 × 72.3 × √ 72.3 70.2 × 69.5 × 81.1 × 77.8 OL J &F √ √ 77.8 √ 67.5 √ 67.9 √ 60.3 68.0 × 61.7 × 58.2 × √ 71.5 69.1 × 81.8 × 75.9 × 66.7 × 70.6 × √ 70.0 76.7 × 71.4 × 65.7 × 56.4 × 72.3 × √ 72.3 70.2 × 69.5 × 81.1 × 77.8 0.62
J 73.9 64.5 64.5 56.7 64.7 58.7 54.6 69.1 67.3 79.2 72.3 64.8 69.1 67.2 J 73.9 64.5 64.5 56.7 64.7 58.7 54.6 69.1 67.3 79.2 72.3 64.8 69.1 67.2 0.43
- 69.3 63.2 64.3 69.9 68.6 - 69.3 63.2 64.3 69.9 68.6 0.65
- 65.4 78.3 75.7 - 65.4 78.3 75.7 0.66
F 81.7 70.5 70.5 63.9 71.3 64.6 61.8 74.0 71.0 84.3 79.4 68.6 72.1 72.7 F 81.7 70.5 70.5 63.9 71.3 64.6 61.8 74.0 71.0 84.3 79.4 68.6 72.1 72.7 0.43
- 73.5 68.2 58.5 74.7 76.0 - 73.5 68.2 58.5 74.7 76.0 0.65
- 73.6 83.9 79.9 - 73.6 83.9 79.9 0.66
FPS 0.01 0.01 0.08 0.22 0.22 0.25 0.56 2.2 2.4 6.3 7 7.7 11 14 22 25 30 35 37 39 41 60 25 70 FPS 0.01 0.01 0.08 0.22 0.22 0.25 0.56 2.2 2.4 6.3 7 7.7 11 14 22 25 30 35 37 39 41 60 25 70 0.64
Table 3. Quantitative results on DAVIS 2017 validation set. 表3。 DAVIS 2017バリデーションセットの定量的結果。 0.71
In all following tables, OL denotes online learning and real-time methods reside below the horizontal line. 以下のすべての表では、OLはオンライン学習とリアルタイムメソッドが水平線の下に存在します。 0.63
SwiftNet with ResNet-18 performs comparably with GCNet, but runs almost X times faster. SwiftNet with ResNet-18はGCNetと互換性があるが、ほぼX倍高速に動作する。 0.65
Moreover, SwiftNet performs stably across seen and unseen classes, demonstrating its favorable generalizability. さらに、SwiftNetは、見知らぬクラスと見えないクラスを安定して実行し、その好ましい一般化性を示している。 0.43
5. Conclusion We have proposed a real-time semi-supervised video object segmentation (VOS) solution, named SwiftNet, which delivers the best overall accuracy and speed performance. 5. 結論 我々は、SwiftNetという名前のリアルタイム半教師付きビデオオブジェクトセグメンテーション(VOS)ソリューションを提案しました。
訳抜け防止モード: 5. 結論 我々は,vos(real-time semi-supervised video object segmentation)ソリューションを提案している。 swiftnetは、最高の全体的な精度とスピードパフォーマンスを提供する。
0.72
SwiftNet achieves real-time segmentation by explicitly compressing spatiotemporal redundancy of matching-based VOS with Pixel-Adaptive Memory (PAM). SwiftNetは、Pixel-Adaptive Memory(PAM)でマッチングベースのVOSの時空間冗長性を明示的に圧縮することにより、リアルタイムセグメンテーションを実現する。 0.50
In PAM, temporal redundancy is reduced using variation-aware trigger, which adaptively selects incremental frames for memory update while ignoring static ones. PAMでは、変動認識トリガーを使用して時間冗長性が減少し、静的なものを無視しながら、メモリ更新のためのインクリメンタルフレームを適応的に選択する。
訳抜け防止モード: PAMでは時間的冗長性が低下する 静的を無視しながら、メモリ更新用のインクリメンタルフレームを適応的に選択する。
0.70
Spatial redundancy is eliminated with pixel-wise memory update and match modules, which abandon full-frame operations and only process temporally-varied pixels incrementally. 空間冗長性は、フルフレーム操作を放棄し、時間的に変化するピクセルのみをインクリメンタルに処理する、ピクセル単位のメモリ更新とマッチモジュールによって排除される。 0.54
Besides, lightaggregation encoder is designed to facilitate thorough and expedite reference frame encoding. さらに、lightaggregationエンコーダは、リファレンスフレームエンコーディングの徹底と迅速化を促進するように設計されています。 0.54
Overall, SwiftNet is highly effective and compatible, by releasing the source code we hope it can set a strong baseline for more real-time VOS solutions to come. SwiftNetは全体として非常に効果的で互換性があり、ソースコードをリリースすることによって、よりリアルタイムなVOSソリューションの強力なベースラインを設定できることを願っています。 0.61
8 8 0.85
英語(論文から抽出)日本語訳スコア
F 88.6 84.9 80.6 87.6 79.5 82.2 F 88.6 84.9 80.6 87.6 79.5 82.2 0.47
J 84.9 86.1 79.8 86.6 82.4 81.1 86.2 88.7 72.3 81.5 77.5 82.0 J 84.9 86.1 79.8 86.6 82.4 81.1 86.2 88.7 72.3 81.5 77.5 82.0 0.43
FPS Method 0.01 PReMVOS [15] OnAVOS [?] FPS Method 0.01 PReMVOS [15] OnAVOS [? 0.82
0.08 0.22 OSVOS [1] 0.25 RANet+ [30] 0.56 FAVOS [3] 2.2 FEELVOS [26] Dyenet [?] 0.08 0.22 OSVOS [1] 0.25 RANet+ [30] 0.56 FAVOS [3] 2.2 FEELVOS [26] Dyenet [? 0.85
2.4 6.3 STM [17] 7 Fasttan [8] 7.7 RGMP [31] 11 Fasttmu [23] 14 AGAME [10] 22 FRTM-VOS [20] 25 GCNet [11] 35 SiamMask [28] 39 SAT [2] 41 FRTM-VOS-fast [20] SwiftNet(ResNet-50) 25 SwiftNet(ResNet-18) 70 Table 4. 2.4 6.3 STM [17] 7 Fasttan [8] 7.7 RGMP [31] 11 Fasttmu [23] 14 AGAME [10] 22 FRTM-VOS [20] 25 GCNet [11] 35 SiamMask [28] 39 SAT [2] 41 FRTM-VOS-fast [20] SwiftNet(ResNet-50) 25 SwiftNet(ResNet-18) 70 Table 4 0.95
Quantitative results on DAVIS 2016 validation set. DAVIS 2016バリデーションセットの定量的結果。 0.70
OL J &F √ √ 86.8 √ 85.5 √ 80.2 87.1 × 80.8 × √ 81.7 × × × × × √ × × × √ × × OL J &F √ √ 86.8 √ 85.5 √ 80.2 87.1 × 80.8 × √ 81.7 × × × × × √ × × × √ × × 0.84
83.5 86.6 70.0 83.1 78.5 90.4 90.1 83.5 86.6 70.0 83.1 78.5 90.4 90.1 0.43
- 89.3 75.9 81.8 78.9 - 89.3 75.9 81.8 78.9 0.65
- 89.9 79.4 82.0 80.3 - 89.9 79.4 82.0 80.3 0.65
85.7 67.8 83.6 85.7 67.8 83.6 0.47
- - 87.6 71.7 82.6 - - 87.6 71.7 82.6 0.72
90.5 90.3 - 90.5 90.3 - 0.68
- - 90.3 89.9 - - 90.3 89.9 0.73
Method RGMP [31] OnAVOS [?] 方法 RGMP[31] OnAVOS [in Japanese] 0.79
PReMVOS [15] OSVOS [1] FRTM-VOS [20] STM [17] PReMVOS [15] OSVOS [1] FRTM-VOS [20] STM [17] 0.95
SiamMask [28] SAT [2] FRTM-VOS-fast [20] TVOS [41] GCNet [11] SwiftNet(ResNet-50) SwiftNet(ResNet-18) SiamMask [28] SAT [2] FRTM-VOS-fast [20] TVOS [41] GCNet [11] SwiftNet(ResNet-50) SwiftNet(ResNet-18) 0.92
OL × √ √ √ √ × × × √ × × × × OL × √ √ √ √ × × × √ × × × × 0.85
G 53.8 55.2 66.9 58.8 72.1 79.4 52.8 63.6 65.7 67.8 73.2 77.8 73.2 G 53.8 55.2 66.9 58.8 72.1 79.4 52.8 63.6 65.7 67.8 73.2 77.8 73.2 0.63
Js 59.5 60.1 71.4 59.8 72.3 79.7 60.2 67.1 68.6 67.1 72.6 77.8 73.3 Js 59.5 60.1 71.4 59.8 72.3 79.7 60.2 67.1 68.6 67.1 72.6 77.8 73.3 0.43
Ju 45.2 46.1 56.5 54.2 65.9 84.2 45.1 55.3 58.4 63.0 68.9 72.3 68.1 Ju 45.2 46.1 56.5 54.2 65.9 84.2 45.1 55.3 58.4 63.0 68.9 72.3 68.1 0.43
Fs - 62.7 75.9 60.5 76.2 72.8 fs- 62.7 75.9 60.5 76.2 72.8 0.58
58.2 70.2 71.3 69.4 75.6 81.8 76.3 58.2 70.2 71.3 69.4 75.6 81.8 76.3 0.43
Fu - 51.4 63.7 60.7 74.1 80.9 47.7 61.7 64.5 71.6 75.7 79.5 75.0 府- 51.4 63.7 60.7 74.1 80.9 47.7 61.7 64.5 71.6 75.7 79.5 75.0 0.48
Table 5. Quantitative results on YouTube-VOS validation set. テーブル5。 YouTube-VOS検証セットの定量結果。 0.71
Here G denotes overall score. Gは総合得点を表す。 0.72
Subscript s and u denotes scores in seen and unseen categories. s と u は、目に見えないカテゴリーのスコアを表す。 0.57
References [1] Sergi Caelles, Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Laura Leal-Taix´e, Daniel Cremers, and Luc Van Gool. 参照: Sergi Caelles, Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Laura Leal-Taix ́e, Daniel Cremers, Luc Van Gool. 0.91
OneIn Proceedings of the shot video object segmentation. OneIn Proceedings of the shot video object segmentation。 0.77
IEEE conference on computer vision and pattern recognition, pages 221–230, 2017. IEEE Conference on computer vision and pattern recognition, page 221–230, 2017 0.86
1, 3, 8, 9 1, 3, 8, 9 0.85
[2] Xi Chen, Zuoxin Li, Ye Yuan, Gang Yu, Jianxin Shen, and Donglian Qi. [2] Xi Chen、Zooxin Li、Ye Yuan、Gang Yu、Jianxin Shen、Donglian Qi。 0.65
State-aware tracker for real-time video object segmentation. リアルタイムビデオオブジェクトセグメンテーションのための状態認識トラッカー。 0.65
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9384– 9393, 2020. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 9384– 9393, 2020。 0.92
1, 3, 5, 8, 9 1, 3, 5, 8, 9 0.85
[3] Jingchun Cheng, Yi-Hsuan Tsai, Wei-Chih Hung, Shengjin Wang, and Ming-Hsuan Yang. [3] Jingchun Cheng、Yi-Hsuan Tsai、Wei-Chih Hung、Shengjin Wang、Ming-Hsuan Yang。 0.75
Fast and accurate online video object segmentation via tracking parts. 追跡部品を介して迅速かつ正確なオンラインビデオオブジェクトセグメンテーション。 0.73
In Proceedings of the IEEE conference on computer vision and pattern recogni- コンピュータビジョンとパターン認識に関するIEEE会議の進行について 0.76
9 tion, pages 7415–7424, 2018. 9 2018年、7415-7424頁。 0.72
1, 3, 8, 9 1, 3, 8, 9 0.85
[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 4]Kaiming彼、Xiangyu Zhang、ShaoqingrenおよびJian Sun。 0.56
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. コンピュータビジョンとパターン認識に関するIEEEカンファレンスProceedings of the IEEE conference, page 770–778, 2016 0.85
5, 6 [5] Ping Hu, Gang Wang, Xiangfei Kong, Jason Kuen, and YapPeng Tan. 5, 6 [5]Ping Hu、Gang Wang、Xiangfei Kong、Jason Kuen、YapPeng Tan。 0.77
Motion-guided cascaded refinement network for video object segmentation. 映像オブジェクトセグメンテーションのための動き誘導型カスケードリファインメントネットワーク 0.75
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1400–1409, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、2018年1400-1409ページ。 0.78
1 [6] Ping Hu, Gang Wang, Xiangfei Kong, Jason Kuen, and YapPeng Tan. 1 [6]Ping Hu、Gang Wang、Xiangfei Kong、Jason Kuen、YapPeng Tan。 0.77
Motion-guided cascaded refinement network for video object segmentation. 映像オブジェクトセグメンテーションのための動き誘導型カスケードリファインメントネットワーク 0.75
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1400–1409, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、2018年1400-1409ページ。 0.78
2 [7] Yuan-Ting Hu, Jia-Bin Huang, and Alexander Schwing. 2 7] Yuan-Ting Hu、Jia-Bin Huang、Alexander Schwing。 0.84
Maskrnn: Instance level video object segmentation. Maskrnn: インスタンスレベルのビデオオブジェクトのセグメンテーション。 0.78
In Advances in neural information processing systems, pages 325– 334, 2017. 神経情報処理システムの進歩において、2017年325-334ページ。 0.77
2, 3 [8] Xuhua Huang, Jiarui Xu, Yu-Wing Tai, and Chi-Keung Tang. 2, 3 8] Xuhua Huang、Jiarui Xu、Yu-Wing Tai、Chi-Keung Tang。 0.83
Fast video object segmentation with temporal aggregation network and dynamic template matching. 時間集約ネットワークと動的テンプレートマッチングによる高速ビデオオブジェクトのセグメンテーション。 0.86
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8879–8889, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 8879–8889, 2020。 0.91
1, 3, 8, 9 1, 3, 8, 9 0.85
[9] Suyog Dutt Jain, Bo Xiong, and Kristen Grauman. 9] Suyog Dutt Jain、Bo Xiong、Kristen Grauman。 0.61
Fusionseg: Learning to combine motion and appearance for fully automatic segmentation of generic objects in videos. Fusionseg:ビデオ内のジェネリックオブジェクトの完全自動セグメンテーションのための動きと外観を組み合わせるための学習。 0.79
In 2017 IEEE conference on computer vision and pattern recognition (CVPR), pages 2117–2126. 2017年、コンピュータビジョンとパターン認識(CVPR)に関するIEEEカンファレンス、2117-2126ページ。 0.74
IEEE, 2017. 2017年、IEEE。 0.63
2 [10] Joakim Johnander, Martin Danelljan, Emil Brissman, Fahad Shahbaz Khan, and Michael Felsberg. 2 Joakim Johnander氏、Martin Danelljan氏、Emil Brissman氏、Fahad Shahbaz Khan氏、Michael Felsberg氏。 0.79
A generative appearance model for end-to-end video object segmentation. エンド・ツー・エンドビデオオブジェクトセグメンテーションのための生成的出現モデル 0.82
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8953–8962, 2019. IEEE Conference on Computer Vision and Pattern RecognitionのProceedingsで、ページ8953-8962、2019。 0.72
1, 3, 5, 8, 9 1, 3, 5, 8, 9 0.85
[11] Yu Li, Zhuoran Shen, and Ying Shan. [11]Yu Li、Zhuoran Shen、Ying Shan。 0.65
Fast video object segmentation using the global context module. global contextモジュールを使用した高速ビデオオブジェクトセグメンテーション。 0.88
arXiv preprint arXiv:2001.11243, 2020. arXiv preprint arXiv:2001.11243, 2020 0.81
1, 3, 8, 9 1, 3, 8, 9 0.85
[12] Huaijia Lin, Xiaojuan Qi, and Jiaya Jia. [12]Huaijia Lin、Xiaojuan Qi、Jiaya Jia。 0.57
Agss-vos: Attention guided single-shot video object segmentation. Agss-vos: シングルショットビデオオブジェクトセグメンテーションの注意。 0.71
In Proceedings of the IEEE International Conference on Computer Vision, pages 3949–3957, 2019. IEEE International Conference on Computer Vision (英語) Proceedings of the IEEE International Conference on Computer Vision, page 3949–3957, 2019 0.68
2 [13] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. 2 13]tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll ́ar, C Lawrence Zitnick。 0.85
Microsoft coco: Common objects in context. Microsoft coco: コンテキスト内の共通オブジェクト。 0.85
In European conference on computer vision, pages 740–755. コンピュータビジョンに関する欧州会議では、740-755ページ。 0.75
Springer, 2014. 6 [14] Xiankai Lu, Wenguan Wang, Chao Ma, Jianbing Shen, Ling Shao, and Fatih Porikli. 2014年春。 6 [14]Xiankai Lu、Wenguan Wang、Chao Ma、Jianbing Shen、Ling Shao、Fatih Porikli。 0.66
See more, know more: Unsupervised video object segmentation with co-attention siamese networks. 関連記事:unsupervised video object segmentation with co-attention siamese networks。 0.61
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3623–3632, 2019. コンピュータビジョンとパターン認識に関するIEEEカンファレンスのProceedingsで、ページ3623-3632、2019。
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 3623-3632頁、2019年。
0.81
5 [15] Jonathon Luiten, Paul Voigtlaender, and Bastian Leibe. 5 15] Jonathon Luiten、Paul Voigtlaender、Bastian Leibe。 0.71
Premvos: Proposal-generation, refinement and merging for In Asian Conference on Comvideo object segmentation. Premvos:Comvideoオブジェクトセグメンテーションに関するアジア会議のための提案生成、洗練、マージ。 0.77
puter Vision, pages 565–580. パタービジョン 565-580頁。 0.71
Springer, 2018. 2018年、スプリンガー。 0.51
1, 8, 9 1, 8, 9 0.85
英語(論文から抽出)日本語訳スコア
[16] K-K Maninis, Sergi Caelles, Yuhua Chen, Jordi Pont-Tuset, Laura Leal-Taix´e, Daniel Cremers, and Luc Van Gool. 16] K-K Maninis, Sergi Caelles, Yuhua Chen, Jordi Pont-Tuset, Laura Leal-Taix ́e, Daniel Cremers, Luc Van Gool。 0.90
Video IEEE object segmentation without temporal information. 時間情報のないビデオIEEEオブジェクトのセグメンテーション。 0.72
transactions on pattern analysis and machine intelligence, 41(6):1515–1530, 2018. パターン分析とマシンインテリジェンスに関するトランザクション、41(6):1515–1530、2018。 0.81
3, 5 [17] Seoung Wug Oh, Joon-Young Lee, Ning Xu, and Seon Joo Kim. 3, 5 [17]Seoung Wug Oh、Joon-Young Lee、Ning Xu、Seon Joo Kim。 0.82
Video object segmentation using space-time memory networks. 時空メモリネットワークを用いたビデオオブジェクトセグメンテーション 0.80
In Proceedings of the IEEE International Conference on Computer Vision, pages 9226–9235, 2019. In Proceedings of the IEEE International Conference on Computer Vision, page 9226–9235, 2019。 0.91
1, 2, 3, 4, 5, 7, 8, 9 1, 2, 3, 4, 5, 7, 8, 9 0.85
[18] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. [18]Adam Paszke,Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, Adam Lerer 0.75
Automatic differentiation in pytorch. パイトーチの自動分化。 0.60
2017. 6 [19] Federico Perazzi, Anna Khoreva, Rodrigo Benenson, Bernt Schiele, and Alexander Sorkine-Hornung. 2017. 6 19] Federico Perazzi、Anna Khoreva、Rodrigo Benenson、Bernt Schiele、Alexander Sorkine-Hornung。 0.80
Learning video object segmentation from static images. 静的画像からビデオオブジェクトのセグメンテーションを学ぶ。 0.70
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2663–2672, 2017. IEEEのコンピュータビジョンとパターン認識に関する会議Proceedings of the IEEE Conferenceにおいて、2663–2672, 2017。
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2663-2672頁、2017年。
0.83
1, 3 [20] Andreas Robinson, Felix Jaremo Lawin, Martin Danelljan, Fahad Shahbaz Khan, and Michael Felsberg. 1, 3 Andreas Robinson氏、Felix Jaremo Lawin氏、Martin Danelljan氏、Fahad Shahbaz Khan氏、Michael Felsberg氏。 0.79
Learning fast and robust target models for video object segmentation. ビデオオブジェクトセグメンテーションのための高速で堅牢なターゲットモデル学習。 0.81
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7406–7415, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 7406–7415, 2020。 0.91
2, 4, 8, 9 2, 4, 8, 9 0.85
[21] W. Shi, J. Caballero, F. Husz´ar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, and Z. Wang. W. Shi, J. Caballero, F. Husz ́ar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, Z. Wang 0.90
Real-time single image and video super-resolution using an efficient sub-pixel In 2016 IEEE Conference convolutional neural network. 効率的なサブピクセルを使用したリアルタイムシングルイメージとビデオスーパーレゾリューション 2016 IEEE Conference 畳み込みニューラルネットワーク。 0.72
on Computer Vision and Pattern Recognition (CVPR), pages 1874–1883, 2016. on Computer Vision and Pattern Recognition (CVPR), page 1874–1883, 2016 0.81
5 [22] Jae Shin Yoon, Francois Rameau, Junsik Kim, Seokju Lee, Seunghak Shin, and In So Kweon. 5 訳語 [22]Jee Shin Yoon, Francois Rameau, Junsik Kim, Seokju Lee, Seunghak Shin, In So Kweon. 0.81
Pixel-level matching for video object segmentation using convolutional neural networks. 畳み込みニューラルネットワークを用いたビデオオブジェクトセグメンテーションのピクセルレベルマッチング 0.84
In Proceedings of the IEEE international conference on computer vision, pages 2167–2176, 2017. コンピュータビジョンに関するIEEE国際会議のProceedingsで、ページ2167-2176、2017。 0.71
3 [23] Mingjie Sun, Jimin Xiao, Eng Gee Lim, Bingfeng Zhang, and Yao Zhao. 3 [23]Mingjie Sun、Jimin Xiao、Eng Gee Lim、Bingfeng Zhang、Yao Zhao。 0.76
Fast template matching and update for video object tracking and segmentation. ビデオオブジェクトの追跡とセグメンテーションのための高速テンプレートマッチングと更新。 0.82
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10791–10799, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 10791–10799, 2020。 0.91
1, 3, 8, 9 1, 3, 8, 9 0.85
[24] Pavel Tokmakov, Karteek Alahari, and Cordelia Schmid. 24] Pavel Tokmakov、Karteek Alahari、Cordelia Schmid。 0.59
Learning video object segmentation with visual memory. ビジュアルメモリによる映像オブジェクトのセグメンテーションの学習 0.82
In Proceedings of the IEEE International Conference on Computer Vision, pages 4481–4490, 2017. The Proceedings of the IEEE International Conference on Computer Vision, page 4481–4490, 2017 0.85
2 [25] Carles Ventura, Miriam Bellver, Andreu Girbau, Amaia Salvador, Ferran Marques, and Xavier Giro-i Nieto. 2 [25]Carles Ventura, Miriam Bellver, Andreu Girbau, Amaia Salvador, Ferran Marques, Xavier Giro-i Nieto。 0.83
Rvos: Endto-end recurrent network for video object segmentation. Rvos: ビデオオブジェクトセグメンテーションのためのエンドツーエンドのリカレントネットワーク。 0.65
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5277–5286, 2019. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ5277-5286、2019。 0.78
2, 3 [26] Paul Voigtlaender, Yuning Chai, Florian Schroff, Hartwig Adam, Bastian Leibe, and Liang-Chieh Chen. 2, 3 26] Paul Voigtlaender、Yuning Chai、Florian Schroff、Hartwig Adam、Bastian Leibe、Liang-Chieh Chen。 0.77
Feelvos: Fast end-to-end embedding learning for video object segmentation. Feelvos: ビデオオブジェクトのセグメンテーションのための高速エンドツーエンドの埋め込み学習。 0.63
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9481–9490, 2019. IEEE Conference on Computer Vision and Pattern RecognitionのProceedingsで、ページ9481-9490、2019。 0.73
1, 2, 3, 5, 8, 9 1, 2, 3, 5, 8, 9 0.85
[27] Paul Voigtlaender and Bastian Leibe. [27]Paul VoigtlaenderとBastian Leibe。 0.69
Online adaptation of convolutional neural networks for video object segmentation. ビデオオブジェクトセグメンテーションのための畳み込みニューラルネットワークのオンライン適応 0.83
arXiv preprint arXiv:1706.09364, 2017. arXiv preprint arXiv:1706.09364, 2017 0.78
3, 8 [28] Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, and Philip HS Torr. 3, 8 [28]Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip HS Torr。 0.79
Fast online object tracking and segmentation: A unifying approach. 高速オンラインオブジェクトの追跡とセグメンテーション:統一的なアプローチ。 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1328–1338, 2019. Proceedings of the IEEE conference on computer vision and pattern recognition, page 1328–1338, 2019。 0.84
1, 2, 3, 5, 8, 9 1, 2, 3, 5, 8, 9 0.85
[29] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. [29] Xiaolong Wang、Ross Girshick、Abhinav Gupta、およびKaming He。 0.71
Non-local neural networks. 非局所ニューラルネットワーク。 0.76
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 7794–7803, 2018。 0.83
1, 3 [30] Ziqin Wang, Jun Xu, Li Liu, Fan Zhu, and Ling Shao. 1, 3 [30]Ziqin Wang、Jun Xu、Li Liu、Fan Zhu、Ling Shao。 0.74
Ranet: Ranking attention network for fast video object segmentaIn Proceedings of the IEEE international conference tion. ranet: fast video object segmentain proceedings of the ieee international conference tionのランキングアテンションネットワーク。 0.68
on computer vision, pages 3978–3987, 2019. コンピュータビジョンでは3978-3987, 2019。 0.68
1, 2, 3, 8, 9 1, 2, 3, 8, 9 0.85
[31] Seoung Wug Oh, Joon-Young Lee, Kalyan Sunkavalli, and Seon Joo Kim. [31]Seoung Wug Oh, Joon-Young Lee, Kalyan Sunkavalli, Seon Joo Kim。 0.81
Fast video object segmentation by referenceguided mask propagation. 参照誘導マスク伝搬による高速映像オブジェクトセグメンテーション 0.77
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7376–7385, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 7376–7385, 2018。 0.85
1, 2, 3, 5, 8, 9 1, 2, 3, 5, 8, 9 0.85
[32] Kai Xu, Longyin Wen, Guorong Li, Liefeng Bo, and Qingming Huang. [32]Kai Xu、Longyin Wen、Guorong Li、Liefeng Bo、Qingming Huang。 0.67
Spatiotemporal cnn for video object segmentation. ビデオオブジェクトセグメンテーションのための時空間cnn 0.70
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1379–1388, 2019. コンピュータビジョンとパターン認識に関するIEEE会議の進行で、ページ1379-1388、2019。 0.75
2, 8 [33] Ning Xu, Linjie Yang, Yuchen Fan, 2, 8 33] Ning Xu、Linjie Yang、Yuchen Fan。 0.74
Jianchao Yang, Dingcheng Yue, Yuchen Liang, Brian Price, Scott Cohen, and Thomas Huang. Jianchao Yang, Dingcheng Yue, Yuchen Liang, Brian Price, Scott Cohen, Thomas Huang 0.70
Youtube-vos: Sequence-to-sequence video object segmentation. Youtube-vos: シーケンスからシーケンスまでのビデオオブジェクトセグメンテーション。 0.53
In Proceedings of the European Conference on Computer Vision (ECCV), pages 585–601, 2018. Proceedings of the European Conference on Computer Vision (ECCV) で、2018年585–601頁。 0.83
3, 4 [34] Linjie Yang, Yuchen Fan, and Ning Xu. 3, 4 [34]Linjie Yang、Yuchen Fan、Ning Xu。 0.72
Video instance segmentation. ビデオインスタンスのセグメンテーション。 0.75
In Proceedings of the IEEE International Conference on Computer Vision, pages 5188–5197, 2019. In Proceedings of the IEEE International Conference on Computer Vision, page 5188–5197, 2019。 0.92
2 [35] Linjie Yang, Yanran Wang, Xuehan Xiong, Jianchao Yang, and Aggelos K Katsaggelos. 2 [35]Linjie Yang、Yanran Wang、Xuehan Xiong、Jianchao Yang、Aggelos K Katsaggelos。 0.73
Efficient video object segmentation via network modulation. ネットワーク変調による効率的な映像オブジェクトセグメンテーション 0.82
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6499–6507, 2018. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 6499–6507, 2018
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 6499-6507頁、2018年。
0.80
3 [36] Zhao Yang, Qiang Wang, Luca Bertinetto, Weiming Hu, Song Bai, and Philip HS Torr. 3 [36]Zhao Yang, Qiang Wang, Luca Bertinetto, Weiming Hu, Song Bai, Philip HS Torr。
訳抜け防止モード: 3 [ 36 ] Zhao Yang, Qiang Wang, Luca Bertinetto, Weiming Hu、Song Bai、およびPhilip HS Torr。
0.82
Anchor diffusion for unsupervised video object segmentation. 教師なしビデオオブジェクトセグメンテーションのためのアンカー拡散 0.68
In Proceedings of the IEEE international conference on computer vision, pages 931–940, 2019. IEEEのコンピュータビジョン国際会議Proceedings of the IEEE International Conference on computer vision, page 931–940, 2019。 0.73
5 [37] Zongxin Yang, Yunchao Wei, and Yi Yang. 5 [37]Zongxin Yang、Yunchao Wei、Yi Yang。 0.74
Collaborative video object segmentation by foreground-backgroun d integration. 前景-背景統合による協調的映像オブジェクトセグメンテーション 0.70
arXiv preprint arXiv:2003.08333, 2020. arXiv preprint arXiv:2003.08333, 2020 0.81
2, 7 [38] Rui Yao, Guosheng Lin, Shixiong Xia, Jiaqi Zhao, and Yong Zhou. 2, 7 38]Rui Yao、Guosheng Lin、Shixiong Xia、Jiaqi Zhao、Yong Zhou。 0.74
Video object segmentation and tracking: A survey. ビデオオブジェクトのセグメンテーションとトラッキング: 調査。 0.69
ACM Transactions on Intelligent Systems and Technology (TIST), 11(4):1–47, 2020. ACM Transactions on Intelligent Systems and Technology (TIST), 11(4):1–47, 2020。 0.89
1 [39] Xiaohui Zeng, Renjie Liao, Li Gu, Yuwen Xiong, Sanja Fidler, and Raquel Urtasun. 1 [39]Xiaohui Zeng, Renjie Liao, Li Gu, Yuwen Xiong, Sanja Fidler, Raquel Urtasun。 0.78
Dmm-net: Differentiable maskIn Promatching network for video object segmentation. Dmm-net: ビデオオブジェクトセグメンテーションのためのプロッチネットワーク。 0.63
ceedings of the IEEE International Conference on Computer Vision, pages 3929–3938, 2019. IEEE International Conference on Computer Vision, page 3929–3938, 2019 に参加。 0.85
2 10 2 10 0.85
英語(論文から抽出)日本語訳スコア
[40] Lu Zhang, Zhe Lin, Jianming Zhang, Huchuan Lu, and You He. 40] Lu Zhang、Zhe Lin、Jianming Zhang、Huchuan Lu、そしてYou He。 0.74
Fast video object segmentation via dynamic targeting network. 動的ターゲティングネットワークによる高速ビデオオブジェクトのセグメンテーション。 0.83
In Proceedings of the IEEE International Conference on Computer Vision, pages 5582–5591, 2019. In Proceedings of the IEEE International Conference on Computer Vision, page 5582–5591, 2019。 0.91
2 [41] Yizhuo Zhang, Zhirong Wu, Houwen Peng, and Stephen Lin. 2 [41]Yizhuo Zhang、Zhirong Wu、Houwen Peng、Stephen Lin。 0.77
A transductive approach for video object segmentation. ビデオオブジェクトセグメンテーションのためのトランスダクティブアプローチ。 0.68
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6949–6958, 2020. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 6949–6958, 2020。 0.91
2, 3, 8, 9 2, 3, 8, 9 0.85
[42] Qiang Zhou, Zilong Huang, Lichao Huang, Yongchao Gong, Han Shen, Wenyu Liu, and Xinggang Wang. [42] Qiang Zhou、Zilong Huang、Lichao Huang、Yongchao Gong、Han Shen、Wenyu Liu、Xinggang Wang。 0.71
Motion-guided spatial time attention for video object segmentation. 映像物体分割のための動き誘導空間時間注意 0.76
In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, Oct 2019. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, October 2019 0.85
1, 2, 3, 4, 5 [43] Zhishan Zhou, Lejian Ren, Pengfei Xiong, Yifei Ji, Peisen Wang, Haoqiang Fan, and Si Liu. 1, 2, 3, 4, 5 [43] Zhishan Zhou, Lejian Ren, Pengfei Xiong, Yifei Ji, Peisen Wang, Haoqiang Fan, Si Liu。 0.77
Enhanced memory netIn Proceedings of the IEEE work for video segmentation. 強化されたメモリネットビデオセグメンテーションのためのIEEE作業の進行。 0.66
International Conference on Computer Vision Workshops, pages 0–0, 2019. International Conference on Computer Vision Workshops, page 0–0, 2019 0.86
1, 2, 3 11 1, 2, 3 11 0.85
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。