論文の概要: Coarse-to-Fine Amodal Segmentation with Shape Prior
- arxiv url: http://arxiv.org/abs/2308.16825v1
- Date: Thu, 31 Aug 2023 15:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:54:50.522046
- Title: Coarse-to-Fine Amodal Segmentation with Shape Prior
- Title(参考訳): 形状に先立つ粗大なアモーダルセグメンテーション
- Authors: Jianxiong Gao, Xuelin Qian, Yikai Wang, Tianjun Xiao, Tong He, Zheng
Zhang and Yanwei Fu
- Abstract要約: アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 52.38348188589834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal object segmentation is a challenging task that involves segmenting
both visible and occluded parts of an object. In this paper, we propose a novel
approach, called Coarse-to-Fine Segmentation (C2F-Seg), that addresses this
problem by progressively modeling the amodal segmentation. C2F-Seg initially
reduces the learning space from the pixel-level image space to the
vector-quantized latent space. This enables us to better handle long-range
dependencies and learn a coarse-grained amodal segment from visual features and
visible segments. However, this latent space lacks detailed information about
the object, which makes it difficult to provide a precise segmentation
directly. To address this issue, we propose a convolution refine module to
inject fine-grained information and provide a more precise amodal object
segmentation based on visual features and coarse-predicted segmentation. To
help the studies of amodal object segmentation, we create a synthetic amodal
dataset, named as MOViD-Amodal (MOViD-A), which can be used for both image and
video amodal object segmentation. We extensively evaluate our model on two
benchmark datasets: KINS and COCO-A. Our empirical results demonstrate the
superiority of C2F-Seg. Moreover, we exhibit the potential of our approach for
video amodal object segmentation tasks on FISHBOWL and our proposed MOViD-A.
Project page at: http://jianxgao.github.io/C2F-Seg.
- Abstract(参考訳): アモーダルオブジェクトのセグメンテーションは、オブジェクトの可視部分と遮蔽部分の両方をセグメンテーションする難しいタスクである。
本稿では,アモーダルセグメンテーション(C2F-Seg)を段階的にモデル化することで,この問題に対処する新しい手法を提案する。
C2F-Segは最初、学習空間をピクセルレベルの画像空間からベクトル量子化された潜在空間に還元する。
これにより、長い範囲の依存関係をよりうまく処理し、視覚的特徴や目に見えるセグメントから粗い粒度のアモーダルセグメントを学習できます。
しかし、この潜伏空間にはオブジェクトに関する詳細な情報がないため、正確なセグメンテーションを直接提供することは困難である。
この問題に対処するために、細粒度情報を注入する畳み込み精細モジュールを提案し、視覚特徴と粗い予測セグメンテーションに基づくより正確なアモーダルオブジェクトセグメンテーションを提供する。
アモーダルオブジェクトのセグメンテーションの研究を支援するために、movid-amodal(movid-a)という合成アモーダルデータセットを作成し、画像とビデオアモーダルオブジェクトセグメンテーションの両方に使用することができる。
このモデルをkinsとcoco-aという2つのベンチマークデータセットで広範囲に評価しました。
実験結果はc2f-segの優位を示す。
さらに,魚介類におけるビデオアモーダルオブジェクトセグメンテーションタスクと提案するmovid-aに対するアプローチの可能性を示す。
プロジェクトページ: http://jianxgao.github.io/c2f-seg。
関連論文リスト
- Using Diffusion Priors for Video Amodal Segmentation [44.36499624938911]
本稿では,映像生成モデルにおける基礎知識を活かして,条件生成タスクとして定式化することで,ビデオアモーダルセグメンテーションに取り組むことを提案する。
提案手法は単純で,対象物のモーダルマスクフレームの列と文脈的擬似深度マップを条件にこれらのモデルを再構成する。
続いてコンテントコンプリートステージが、オブジェクトの隠された領域にペンキを塗ることができる。
論文 参考訳(メタデータ) (2024-12-05T21:30:40Z) - A2VIS: Amodal-Aware Approach to Video Instance Segmentation [8.082593574401704]
本稿では,映像中のオブジェクトの包括的理解を実現するために,アモーダル表現を取り入れた新しいフレームワーク,A2VISを提案する。
A2VIS(Amodal-Aware Video Instance)は、ビデオ内のオブジェクトの可視部分と隠蔽部分の両方について、信頼性の高い包括的な理解を実現するために、アモーダル表現を取り入れている。
論文 参考訳(メタデータ) (2024-12-02T05:44:29Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z) - Evolution of Image Segmentation using Deep Convolutional Neural Network:
A Survey [0.0]
我々はCNNに基づくセマンティックとインスタンスセグメンテーションの両方の進化を垣間見る。
我々は、最先端のパン光学セグメンテーションモデルを垣間見せた。
論文 参考訳(メタデータ) (2020-01-13T06:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。