論文の概要: Learning to Learn Better for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2212.02112v1
- Date: Mon, 5 Dec 2022 09:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:34:36.162406
- Title: Learning to Learn Better for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトのセグメンテーションをより良く学ぶための学習
- Authors: Meng Lan, Jing Zhang, Lefei Zhang, Dacheng Tao
- Abstract要約: 本稿では,SVOS の学習目標機能 (LLB) を強調する新しいフレームワークを提案する。
識別ラベル生成モジュール(DLGM)と適応融合モジュールを設計し,これらの課題に対処する。
提案手法は最先端性能を実現する。
- 参考スコア(独自算出の注目度): 94.5753973590207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the joint learning framework (JOINT) integrates matching based
transductive reasoning and online inductive learning to achieve accurate and
robust semi-supervised video object segmentation (SVOS). However, using the
mask embedding as the label to guide the generation of target features in the
two branches may result in inadequate target representation and degrade the
performance. Besides, how to reasonably fuse the target features in the two
different branches rather than simply adding them together to avoid the adverse
effect of one dominant branch has not been investigated. In this paper, we
propose a novel framework that emphasizes Learning to Learn Better (LLB) target
features for SVOS, termed LLB, where we design the discriminative label
generation module (DLGM) and the adaptive fusion module to address these
issues. Technically, the DLGM takes the background-filtered frame instead of
the target mask as input and adopts a lightweight encoder to generate the
target features, which serves as the label of the online few-shot learner and
the value of the decoder in the transformer to guide the two branches to learn
more discriminative target representation. The adaptive fusion module maintains
a learnable gate for each branch, which reweighs the element-wise feature
representation and allows an adaptive amount of target information in each
branch flowing to the fused target feature, thus preventing one branch from
being dominant and making the target feature more robust to distractor.
Extensive experiments on public benchmarks show that our proposed LLB method
achieves state-of-the-art performance.
- Abstract(参考訳): 近年,共用学習フレームワークJOINT (Joint Learning framework) はマッチングに基づく帰納的推論とオンライン帰納的学習を統合し,正確で堅牢な半教師付きビデオオブジェクトセグメンテーション(SVOS)を実現する。
しかし、2つのブランチでターゲット機能の生成を導くラベルとしてマスクを埋め込むことで、ターゲット表現が不十分になり、パフォーマンスが低下する可能性がある。
また,2つの枝の目的特徴を単純に加えるのではなく,目的特徴を適切に融合して1つの枝の悪影響を避ける方法も検討されていない。
本稿では,識別ラベル生成モジュール(DLGM)と適応融合モジュール(Adaptive fusion Module)を設計し,その課題に対処する。
技術的には、dlgmは、ターゲットマスクの代わりに背景フィルターフレームを入力として、軽量エンコーダを採用してターゲット特徴を生成し、オンラインの少数ショット学習者のラベルとトランスフォーマにおけるデコーダの値として、2つのブランチを誘導して、より識別可能なターゲット表現を学ぶ。
適応核融合モジュールは、各分岐に対する学習可能なゲートを保持し、要素的特徴表現を尊重し、融合目標特徴に流れる各分岐における目標情報の適応量を許容し、一方の分岐が支配的になるのを防止し、目標特徴をより混乱させる。
公開ベンチマーク実験により,提案手法が最先端性能を実現することを示す。
関連論文リスト
- CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Pulling Target to Source: A New Perspective on Domain Adaptive Semantic Segmentation [80.1412989006262]
ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としています。
我々はT2S-DAを提案し、T2S-DAはドメイン適応のためのソースにターゲットを引っ張る形式として解釈する。
論文 参考訳(メタデータ) (2023-05-23T07:09:09Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Shuffle Augmentation of Features from Unlabeled Data for Unsupervised
Domain Adaptation [21.497019000131917]
Unsupervised Domain Adaptation (UDA) は、ターゲットサンプルのラベルが利用できない転送学習の分野である。
本稿では,新しいUDAフレームワークとしてShuffle Augmentation of Features (SAF)を提案する。
SAFはターゲットサンプルから学習し、クラス認識対象の特徴を適応的に蒸留し、クラス境界を見つけるために分類器を暗黙的にガイドする。
論文 参考訳(メタデータ) (2022-01-28T07:11:05Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。