論文の概要: Reliability-Hierarchical Memory Network for Scribble-Supervised Video
Object Segmentation
- arxiv url: http://arxiv.org/abs/2303.14384v1
- Date: Sat, 25 Mar 2023 07:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:00:14.577066
- Title: Reliability-Hierarchical Memory Network for Scribble-Supervised Video
Object Segmentation
- Title(参考訳): Scribble-Supervised Video Object Segmentationのための信頼性階層型メモリネットワーク
- Authors: Zikun Zhou, Kaige Mao, Wenjie Pei, Hongpeng Wang, Yaowei Wang, Zhenyu
He
- Abstract要約: 本稿では,ビデオオブジェクトセグメンテーション(VOS)タスクをスクリブル教師方式で解決することを目的とする。
本稿では,高密度な結果を予測するためのモデル学習を容易にするために,スクリブル教師付き学習機構を提案する。
- 参考スコア(独自算出の注目度): 25.59883486325534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to solve the video object segmentation (VOS) task in a
scribble-supervised manner, in which VOS models are not only trained by the
sparse scribble annotations but also initialized with the sparse target
scribbles for inference. Thus, the annotation burdens for both training and
initialization can be substantially lightened. The difficulties of
scribble-supervised VOS lie in two aspects. On the one hand, it requires the
powerful ability to learn from the sparse scribble annotations during training.
On the other hand, it demands strong reasoning capability during inference
given only a sparse initial target scribble. In this work, we propose a
Reliability-Hierarchical Memory Network (RHMNet) to predict the target mask in
a step-wise expanding strategy w.r.t. the memory reliability level. To be
specific, RHMNet first only uses the memory in the high-reliability level to
locate the region with high reliability belonging to the target, which is
highly similar to the initial target scribble. Then it expands the located
high-reliability region to the entire target conditioned on the region itself
and the memories in all reliability levels. Besides, we propose a
scribble-supervised learning mechanism to facilitate the learning of our model
to predict dense results. It mines the pixel-level relation within the single
frame and the frame-level relation within the sequence to take full advantage
of the scribble annotations in sequence training samples. The favorable
performance on two popular benchmarks demonstrates that our method is
promising.
- Abstract(参考訳): 本稿では,ビデオオブジェクトセグメンテーション(vos, video object segmentation)タスクをscribble-supervised方式で解決することを目的として,vosモデルがsparse scribbleアノテーションでトレーニングされるだけでなく,sparse target scribblesで初期化することで推論を行う。
これにより、トレーニングと初期化の両方のアノテーション負担を大幅に軽減することができる。
VOSのスクリブル制御の難しさは2つの側面にある。
一方では、トレーニング中にスパースなスクリブルアノテーションから学ぶための強力な能力が必要です。
一方、スパースの初期目標スクリブルのみを考慮し、推論中に強い推論能力を要求する。
本研究では,メモリ信頼性レベルを段階的に拡張する戦略w.r.tにおいて,ターゲットマスクを予測するための信頼性階層型メモリネットワーク(rhmnet)を提案する。
具体的に言うと、RHMNetはまず、信頼性の高いレベルにあるメモリのみを使用して、ターゲットに属する高い信頼性のある領域を特定する。
そして、位置した高信頼領域を、その領域自体に条件付けられたターゲット全体と、すべての信頼性レベルにおけるメモリに拡張する。
さらに,より密集した結果を予測するためのモデル学習を容易にするためのスクリブル教師付き学習機構を提案する。
単一のフレーム内のピクセルレベルの関係とシーケンス内のフレームレベルの関係をマイニングし、シーケンストレーニングサンプルにおけるスクリブルアノテーションを最大限に活用する。
2つの人気のあるベンチマークのパフォーマンスは、我々の方法が有望であることを示している。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Semi-supervised Semantic Segmentation Meets Masked Modeling:Fine-grained
Locality Learning Matters in Consistency Regularization [31.333862320143968]
半教師付きセマンティックセグメンテーションはラベル付き画像と豊富なラベル付き画像を利用してラベル効率の高い学習を実現することを目的としている。
我々は,より詳細な局所性学習により,より高密度なセグメンテーションを実現する,textttMaskMatchという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T03:28:53Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Learning to Learn Better for Video Object Segmentation [94.5753973590207]
本稿では,SVOS の学習目標機能 (LLB) を強調する新しいフレームワークを提案する。
識別ラベル生成モジュール(DLGM)と適応融合モジュールを設計し,これらの課題に対処する。
提案手法は最先端性能を実現する。
論文 参考訳(メタデータ) (2022-12-05T09:10:34Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Learning Position and Target Consistency for Memory-based Video Object
Segmentation [39.787966275016906]
メモリベースのビデオオブジェクトセグメンテーションのための位置と目標整合性フレームワークを学ぶ。
メモリ機構を適用してピクセルをグローバルに取得し、一方、より信頼性の高いセグメンテーションのための位置一貫性を学習する。
実験により、LCMはDAVISとYoutube-VOSベンチマークの両方で最先端のパフォーマンスを達成しています。
論文 参考訳(メタデータ) (2021-04-09T12:22:37Z) - Learning What to Learn for Video Object Segmentation [157.4154825304324]
本稿では,多様な数発の学習モジュールを統合した,エンドツーエンドのトレーニング可能なVOSアーキテクチャを提案する。
この内部学習器は、ターゲットの強力なパラメトリックモデルを予測するように設計されている。
私たちは、大規模なYouTube-VOS 2018データセットに、総合スコア81.5を達成して、新たな最先端を設定しました。
論文 参考訳(メタデータ) (2020-03-25T17:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。