論文の概要: Self-supervised Amodal Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2210.12733v1
- Date: Sun, 23 Oct 2022 14:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:18:47.250978
- Title: Self-supervised Amodal Video Object Segmentation
- Title(参考訳): 自己教師付きamodalビデオオブジェクトセグメンテーション
- Authors: Jian Yao, Yuxin Hong, Chiyu Wang, Tianjun Xiao, Tong He, Francesco
Locatello, David Wipf, Yanwei Fu, Zheng Zhang
- Abstract要約: アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
- 参考スコア(独自算出の注目度): 57.929357732733926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal perception requires inferring the full shape of an object that is
partially occluded. This task is particularly challenging on two levels: (1) it
requires more information than what is contained in the instant retina or
imaging sensor, (2) it is difficult to obtain enough well-annotated amodal
labels for supervision. To this end, this paper develops a new framework of
Self-supervised amodal Video object segmentation (SaVos). Our method
efficiently leverages the visual information of video temporal sequences to
infer the amodal mask of objects. The key intuition is that the occluded part
of an object can be explained away if that part is visible in other frames,
possibly deformed as long as the deformation can be reasonably learned.
Accordingly, we derive a novel self-supervised learning paradigm that
efficiently utilizes the visible object parts as the supervision to guide the
training on videos. In addition to learning type prior to complete masks for
known types, SaVos also learns the spatiotemporal prior, which is also useful
for the amodal task and could generalize to unseen types. The proposed
framework achieves the state-of-the-art performance on the synthetic amodal
segmentation benchmark FISHBOWL and the real world benchmark KINS-Video-Car.
Further, it lends itself well to being transferred to novel distributions using
test-time adaptation, outperforming existing models even after the transfer to
a new distribution.
- Abstract(参考訳): アモーダル知覚は、部分的に遮蔽された物体の完全な形状を推測する必要がある。
この課題は2つのレベルで特に困難である:(1)インスタント網膜やイメージングセンサーに含まれている情報よりも多くの情報を必要とする、(2)十分な注釈付きアモーダルラベルを得るのが困難である。
そこで本稿では,savos(self-supervised amodal video object segmentation)の新たな枠組みを提案する。
本手法は,映像時間列の視覚情報を効率的に活用し,物体のアモーダルマスクを推定する。
鍵となる直感は、物体の隠蔽された部分は、その部分が他のフレームで見える場合、あるいは変形が合理的に学べる限り変形する場合に説明できるということである。
そこで我々は,映像のトレーニングを指導する指導として,視覚的対象部品を効果的に活用する,自己指導型学習パラダイムを考案した。
既知の型に対する完全なマスクの前に学習する型に加えて、SaVosは時空間的事前学習も行っており、これはアモーダルタスクにも有用であり、目に見えない型に一般化することができる。
提案フレームワークは,合成アモーダルセグメンテーションベンチマークFISHBOWLと実世界ベンチマークKINS-Video-Carの最先端性能を実現する。
さらに、新たな分布への移行後も既存のモデルよりも優れており、テスト時間適応を用いて新しい分布に移行することにも適している。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。