論文の概要: Joint Inductive and Transductive Learning for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2108.03679v1
- Date: Sun, 8 Aug 2021 16:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:24:03.515258
- Title: Joint Inductive and Transductive Learning for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのための共同帰納学習とトランスダクティブ学習
- Authors: Yunyao Mao, Ning Wang, Wengang Zhou, Houqiang Li
- Abstract要約: 半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
- 参考スコア(独自算出の注目度): 107.32760625159301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation is a task of segmenting the target
object in a video sequence given only a mask annotation in the first frame. The
limited information available makes it an extremely challenging task. Most
previous best-performing methods adopt matching-based transductive reasoning or
online inductive learning. Nevertheless, they are either less discriminative
for similar instances or insufficient in the utilization of spatio-temporal
information. In this work, we propose to integrate transductive and inductive
learning into a unified framework to exploit the complementarity between them
for accurate and robust video object segmentation. The proposed approach
consists of two functional branches. The transduction branch adopts a
lightweight transformer architecture to aggregate rich spatio-temporal cues
while the induction branch performs online inductive learning to obtain
discriminative target information. To bridge these two diverse branches, a
two-head label encoder is introduced to learn the suitable target prior for
each of them. The generated mask encodings are further forced to be
disentangled to better retain their complementarity. Extensive experiments on
several prevalent benchmarks show that, without the need of synthetic training
data, the proposed approach sets a series of new state-of-the-art records. Code
is available at https://github.com/maoyunyao/JOINT.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(半教師付きビデオオブジェクトセグメンテーション)は、第1のフレームにマスクアノテーションのみを付与するビデオシーケンスでターゲットオブジェクトをセグメンテーションするタスクである。
利用可能な限られた情報は、非常に困難なタスクになります。
従来のベストパフォーマンス手法の多くは、マッチングベースのトランスダクティブ推論やオンラインインダクティブ学習を採用している。
それでも、同様の事例では差別的でないか、時空間情報の利用に不十分である。
本研究では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の相補性を利用して,高精度でロバストなビデオオブジェクトセグメンテーションを提案する。
提案手法は2つの機能分岐からなる。
トランスダクションブランチは、リッチな時空間キューを集約する軽量なトランスフォーマーアーキテクチャを採用し、インダクションブランチはオンライン誘導学習を行い、識別対象情報を得る。
これら2つの分岐をブリッジするために、2つのヘッドラベルエンコーダを導入し、それぞれに適切なターゲットを学習する。
生成されたマスクエンコーディングは、その相補性を維持するためにさらに切り離される。
いくつかの一般的なベンチマーク実験では、合成トレーニングデータを必要としないため、提案手法は一連の新しい最先端記録を設定する。
コードはhttps://github.com/maoyunyao/JOINT.comで入手できる。
関連論文リスト
- Towards Few-Annotation Learning in Computer Vision: Application to Image
Classification and Object Detection tasks [3.5353632767823506]
本論文では,限定ラベルを用いた機械学習の理論的,アルゴリズム的,実験的貢献について述べる。
最初のコントリビューションでは、Few-Shot分類で使われる人気のあるメタラーニングアルゴリズムの理論と実践のギャップを埋めることに興味がある。
トランスフォーマーアーキテクチャに基づくオブジェクト検出器のトレーニングにおいて,ラベルのないデータを活用するために,教師なし事前学習と半教師付き学習の両方を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:50:04Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Learning to Learn Better for Video Object Segmentation [94.5753973590207]
本稿では,SVOS の学習目標機能 (LLB) を強調する新しいフレームワークを提案する。
識別ラベル生成モジュール(DLGM)と適応融合モジュールを設計し,これらの課題に対処する。
提案手法は最先端性能を実現する。
論文 参考訳(メタデータ) (2022-12-05T09:10:34Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。