論文の概要: Tackling Background Distraction in Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2207.06953v1
- Date: Thu, 14 Jul 2022 14:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 14:18:05.233505
- Title: Tackling Background Distraction in Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションにおける背景の抽出
- Authors: Suhwan Cho, Heansung Lee, Minhyeok Lee, Chaewon Park, Sungjun Jang,
Minjung Kim, Sangyoun Lee
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 7.187425003801958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation (VOS) aims to densely track certain
designated objects in videos. One of the main challenges in this task is the
existence of background distractors that appear similar to the target objects.
We propose three novel strategies to suppress such distractors: 1) a
spatio-temporally diversified template construction scheme to obtain
generalized properties of the target objects; 2) a learnable distance-scoring
function to exclude spatially-distant distractors by exploiting the temporal
consistency between two consecutive frames; 3) swap-and-attach augmentation to
force each object to have unique features by providing training samples
containing entangled objects. On all public benchmark datasets, our model
achieves a comparable performance to contemporary state-of-the-art approaches,
even with real-time performance. Qualitative results also demonstrate the
superiority of our approach over existing methods. We believe our approach will
be widely used for future VOS research.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定の指定されたオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑えるための3つの新しい戦略を提案する。
1) 対象物の一般化特性を得るための時空間的多角化テンプレート構築スキーム
2) 2つの連続するフレーム間の時間的一貫性を利用して空間的距離を逸脱する学習可能な距離標示機能
3) 絡み合ったオブジェクトを含むトレーニングサンプルを提供することで、各オブジェクトにユニークな特徴を持たせるスワップ・アンド・アタッチメントの強化。
すべての公開ベンチマークデータセットにおいて、我々のモデルは、リアルタイムのパフォーマンスであっても、現代の最先端のアプローチに匹敵する性能を達成する。
定性的な結果も既存の手法よりも優れていることを示している。
われわれのアプローチは今後のVOS研究に広く使われるだろう。
関連論文リスト
- Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Learning to Track Object Position through Occlusion [32.458623495840904]
オクルージョンは、物体検出器やトラッカーが直面する最も重要な課題の1つである。
本稿では,領域ベースビデオオブジェクト検出装置の成功に基づくトラッキング・バイ・検出手法を提案する。
提案手法は,インターネットから収集した家具組立ビデオのデータセットにおいて,優れた結果が得られる。
論文 参考訳(メタデータ) (2021-06-20T22:29:46Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。