論文の概要: Using Diffusion Priors for Video Amodal Segmentation
- arxiv url: http://arxiv.org/abs/2412.04623v1
- Date: Thu, 05 Dec 2024 21:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:21.342771
- Title: Using Diffusion Priors for Video Amodal Segmentation
- Title(参考訳): ビデオアモーダルセグメンテーションにおける拡散プリミティブの利用
- Authors: Kaihua Chen, Deva Ramanan, Tarasha Khurana,
- Abstract要約: 本稿では,映像生成モデルにおける基礎知識を活かして,条件生成タスクとして定式化することで,ビデオアモーダルセグメンテーションに取り組むことを提案する。
提案手法は単純で,対象物のモーダルマスクフレームの列と文脈的擬似深度マップを条件にこれらのモデルを再構成する。
続いてコンテントコンプリートステージが、オブジェクトの隠された領域にペンキを塗ることができる。
- 参考スコア(独自算出の注目度): 44.36499624938911
- License:
- Abstract: Object permanence in humans is a fundamental cue that helps in understanding persistence of objects, even when they are fully occluded in the scene. Present day methods in object segmentation do not account for this amodal nature of the world, and only work for segmentation of visible or modal objects. Few amodal methods exist; single-image segmentation methods cannot handle high-levels of occlusions which are better inferred using temporal information, and multi-frame methods have focused solely on segmenting rigid objects. To this end, we propose to tackle video amodal segmentation by formulating it as a conditional generation task, capitalizing on the foundational knowledge in video generative models. Our method is simple; we repurpose these models to condition on a sequence of modal mask frames of an object along with contextual pseudo-depth maps, to learn which object boundary may be occluded and therefore, extended to hallucinate the complete extent of an object. This is followed by a content completion stage which is able to inpaint the occluded regions of an object. We benchmark our approach alongside a wide array of state-of-the-art methods on four datasets and show a dramatic improvement of upto 13% for amodal segmentation in an object's occluded region.
- Abstract(参考訳): 人間におけるオブジェクトの永続性は、シーンに完全に閉じ込められている場合でも、オブジェクトの永続性を理解するのに役立つ基本的なキューである。
現在のオブジェクトセグメンテーションの手法は、このアモーダルな性質を考慮せず、可視オブジェクトやモーダルオブジェクトのセグメンテーションのためにのみ機能する。
アモーダルな手法はほとんど存在せず、単一画像分割法は時間的情報を用いてよりよく推測される高レベルのオクルージョンを扱えないし、マルチフレーム法は厳密なオブジェクトのセグメンテーションにのみ焦点を当てている。
そこで本稿では,映像生成モデルの基本知識を活かして,条件生成タスクとして定式化することで,映像のアモーダルセグメンテーションに取り組むことを提案する。
提案手法は単純であり,対象物のモードマスクフレームの列と文脈的擬似深度マップを条件として,対象の境界をどの範囲で無視するかを学習し,対象の完全な範囲を幻覚させるよう拡張した。
続いてコンテントコンプリートステージが、オブジェクトの隠された領域にペンキを塗ることができる。
提案手法は, 4つのデータセット上での最先端手法の多種多様さとともにベンチマークし, 物体の隠蔽領域におけるアモーダルセグメンテーションにおいて, 最大13%の劇的な改善を示す。
関連論文リスト
- Sequential Amodal Segmentation via Cumulative Occlusion Learning [15.729212571002906]
視覚系は、物体の可視領域と隠蔽領域の両方を分割できなければならない。
本研究では,不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションを目的とした累積オクルージョン学習を用いた拡散モデルを提案する。
このモデルは拡散中の累積マスク戦略を用いて予測を反復的に洗練し、目に見えない領域の不確かさを効果的に捉える。
これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。
論文 参考訳(メタデータ) (2024-05-09T14:17:26Z) - Coarse-to-Fine Amodal Segmentation with Shape Prior [52.38348188589834]
アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-31T15:56:29Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - A Transductive Approach for Video Object Segmentation [55.83842083823267]
半教師付きビデオオブジェクトセグメンテーションは、第1フレームのマスクを考えると、対象オブジェクトをビデオシーケンスから分離することを目的としている。
現在の一般的な手法のほとんどは、光学フローやインスタンスセグメンテーションといった他の領域で訓練された追加モジュールの情報を利用する。
本稿では,モジュールやデータセット,専用のアーキテクチャ設計を必要としない,単純かつ強力なトランスダクティブ手法を提案する。
論文 参考訳(メタデータ) (2020-04-15T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。