論文の概要: Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging
- arxiv url: http://arxiv.org/abs/2204.10846v1
- Date: Fri, 22 Apr 2022 17:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:17:08.552278
- Title: Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging
- Title(参考訳): カットアウト予測とタグ付けによる自己監督型ビデオオブジェクトセグメンテーション
- Authors: Jyoti Kini and Fahad Shahbaz Khan and Salman Khan and Mubarak Shah
- Abstract要約: 本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 117.73967303377381
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel self-supervised Video Object Segmentation (VOS) approach
that strives to achieve better object-background discriminability for accurate
object segmentation. Distinct from previous self-supervised VOS methods, our
approach is based on a discriminative learning loss formulation that takes into
account both object and background information to ensure object-background
discriminability, rather than using only object appearance. The discriminative
learning loss comprises cutout-based reconstruction (cutout region represents
part of a frame, whose pixels are replaced with some constant values) and tag
prediction loss terms. The cutout-based reconstruction term utilizes a simple
cutout scheme to learn the pixel-wise correspondence between the current and
previous frames in order to reconstruct the original current frame with added
cutout region in it. The introduced cutout patch guides the model to focus as
much on the significant features of the object of interest as the less
significant ones, thereby implicitly equipping the model to address
occlusion-based scenarios. Next, the tag prediction term encourages
object-background separability by grouping tags of all pixels in the cutout
region that are similar, while separating them from the tags of the rest of the
reconstructed frame pixels. Additionally, we introduce a zoom-in scheme that
addresses the problem of small object segmentation by capturing fine structural
information at multiple scales. Our proposed approach, termed CT-VOS, achieves
state-of-the-art results on two challenging benchmarks: DAVIS-2017 and
Youtube-VOS. A detailed ablation showcases the importance of the proposed loss
formulation to effectively capture object-background discriminability and the
impact of our zoom-in scheme to accurately segment small-sized objects.
- Abstract(参考訳): 本稿では,オブジェクト分割の精度向上を目的とした,自己教師型ビデオオブジェクトセグメンテーション(VOS)手法を提案する。
従来の自己監督型VOS法とは違い,本手法はオブジェクトの外観だけでなく,対象と背景の両方を考慮に入れた識別的学習損失の定式化に基づいている。
識別学習損失は、カットアウトベースの再構成(カットアウト領域はフレームの一部であり、画素を一定の値に置き換える)とタグ予測損失項とを含む。
カットアウトに基づく再構築用語は、カットアウト領域を付加した元の現在のフレームを再構築するために、現在のフレームと前のフレームの画素間の対応を学習するために単純なカットアウトスキームを使用する。
導入されたカットアウトパッチは、モデルが関心のあるオブジェクトの重要な特徴に重点を置き、より重要でないものほど、オクルージョンベースのシナリオに対処するために暗黙的にモデルを装備するように導く。
次に、タグ予測用語は、類似したカットアウト領域内の全画素のタグをグループ化し、他の再構成されたフレーム画素のタグと分離することにより、オブジェクトバックグランド分離性を促進する。
さらに,複数のスケールで微細な構造情報をキャプチャすることで,小物体分割の問題に対処するズームインスキームを提案する。
提案手法はCT-VOSと呼ばれ, DAVIS-2017 と Youtube-VOS の2つの試行錯誤ベンチマークで最先端の結果を得た。
詳細なアブレーションでは、物体の背景識別性を効果的に捉えるための損失定式化の重要性と、小型物体を正確に分割するためのズームイン方式の影響が示される。
関連論文リスト
- Pixel-Level Domain Adaptation: A New Perspective for Enhancing Weakly Supervised Semantic Segmentation [13.948425538725138]
画素単位の領域不変性を学習する際のモデルとして,Pixel-Level Domain Adaptation (PLDA)法を提案する。
我々は,幅広い環境下でのアプローチの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2024-08-04T14:14:54Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - Inter-object Discriminative Graph Modeling for Indoor Scene Recognition [5.712940060321454]
本稿では,シーン特徴表現を強化するために,識別対象知識を活用することを提案する。
画素レベルのシーン特徴をノードとして定義する識別グラフネットワーク(DGN)を構築する。
提案した IODP と DGN を用いて, 広く使用されているシーンデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2023-11-10T08:07:16Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Sharp Eyes: A Salient Object Detector Working The Same Way as Human
Visual Characteristics [3.222802562733787]
本稿では,まず被写体をシーンから分離し,それを細分化するシャープアイネットワーク(SENet)を提案する。
提案手法は,拡張オブジェクトを用いてネットワークを誘導し,完全な予測を行う。
論文 参考訳(メタデータ) (2023-01-18T11:00:45Z) - Anti-Adversarially Manipulated Attributions for Weakly Supervised
Semantic Segmentation and Object Localization [31.69344455448125]
本稿では,最終ソフトマックス層やシグモイド層の前に分類器が生成する分類スコアを増やすために操作した画像の属性マップを提案する。
この操作は対逆的な方法で実現され、元の画像は対逆攻撃で使用されるものと反対方向に画素勾配に沿って摂動される。
さらに,対象物に関係のない領域の不正な帰属と,対象物の小さな領域への過剰な帰属の集中を抑制する新たな正規化手法を導入する。
論文 参考訳(メタデータ) (2022-04-11T06:18:02Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - A Weakly-Supervised Semantic Segmentation Approach based on the Centroid
Loss: Application to Quality Control and Inspection [6.101839518775968]
本稿では,新しい損失関数を用いた弱教師付きセマンティックセマンティックセマンティクス手法の提案と評価を行う。
アプローチのパフォーマンスは,2つの業界関連ケーススタディのデータセットに対して評価される。
論文 参考訳(メタデータ) (2020-10-26T09:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。