論文の概要: Amodal Ground Truth and Completion in the Wild
- arxiv url: http://arxiv.org/abs/2312.17247v2
- Date: Mon, 29 Apr 2024 17:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 00:05:37.002069
- Title: Amodal Ground Truth and Completion in the Wild
- Title(参考訳): 野生におけるアモダルグラウンドの真理と完遂
- Authors: Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman,
- Abstract要約: 我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
- 参考スコア(独自算出の注目度): 84.54972153436466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies amodal image segmentation: predicting entire object segmentation masks including both visible and invisible (occluded) parts. In previous work, the amodal segmentation ground truth on real images is usually predicted by manual annotaton and thus is subjective. In contrast, we use 3D data to establish an automatic pipeline to determine authentic ground truth amodal masks for partially occluded objects in real images. This pipeline is used to construct an amodal completion evaluation benchmark, MP3D-Amodal, consisting of a variety of object categories and labels. To better handle the amodal completion task in the wild, we explore two architecture variants: a two-stage model that first infers the occluder, followed by amodal mask completion; and a one-stage model that exploits the representation power of Stable Diffusion for amodal segmentation across many categories. Without bells and whistles, our method achieves a new state-of-the-art performance on Amodal segmentation datasets that cover a large variety of objects, including COCOA and our new MP3D-Amodal dataset. The dataset, model, and code are available at https://www.robots.ox.ac.uk/~vgg/research/amodal/.
- Abstract(参考訳): 本稿では,非モーダル画像のセグメンテーションについて検討し,可視部と可視部の両方を含む全物体セグメンテーションマスクの予測を行った。
以前の研究では、実画像上のアモーダルなセグメンテーション基底真理は、通常手動のアナタトンによって予測され、従って主観的である。
対照的に、我々は3Dデータを用いて、実画像の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
そこで本研究では,まずオクルーダを推定し,次にアモーダルマスクを補完する2段階モデルと,多数のカテゴリにわたるアモーダルセグメンテーションにおいて,安定拡散の表現力を利用する1段階モデルについて検討する。
ベルやホイッスルを使わずに,COCOAや新しいMP3D-Amodalデータセットを含む多種多様なオブジェクトをカバーするAmodalセグメンテーションデータセット上で,最先端のパフォーマンスを実現する。
データセット、モデル、コードはhttps://www.robots.ox.ac.uk/~vgg/research/amodal/で入手できる。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - TAO-Amodal: A Benchmark for Tracking Any Object Amodally [41.5396827282691]
TAO-Amodalは,数千の動画シーケンスにおいて833の多様なカテゴリを特徴とする。
私たちのデータセットには、カメラフレームから部分的に外れたものを含む、可視または部分的に、あるいは完全に隠されたオブジェクトのための、テクスタモーダルおよびモーダルバウンディングボックスが含まれています。
論文 参考訳(メタデータ) (2023-12-19T18:58:40Z) - Coarse-to-Fine Amodal Segmentation with Shape Prior [52.38348188589834]
アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-31T15:56:29Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal
Rearrangement [49.888011242939385]
本研究では,シーン内のオブジェクトを並べ替えて,所望のオブジェクトとシーンの配置関係を実現するシステムを提案する。
パイプラインは、新しいジオメトリ、ポーズ、シーンとオブジェクトのレイアウトに一般化される。
論文 参考訳(メタデータ) (2023-07-10T17:56:06Z) - Amodal Intra-class Instance Segmentation: Synthetic Datasets and
Benchmark [17.6780586288079]
本稿では、画像アモーダル完了タスクのための2つの新しいアモーダルデータセットを提案する。
また,アモーダル・インスタンス・セグメンテーションのための事前レイヤを持つ点教師付きスキームを提案する。
実験により、我々の弱教師付きアプローチはSOTAの完全教師付き手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-12T07:28:36Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - AISFormer: Amodal Instance Segmentation with Transformer [9.042737643989561]
Amodal Instance(AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。
本稿では、Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
論文 参考訳(メタデータ) (2022-10-12T15:42:40Z) - Amodal Cityscapes: A New Dataset, its Generation, and an Amodal Semantic
Segmentation Challenge Baseline [38.8592627329447]
本稿では,アモーダルなセマンティックセグメンテーションの課題を考察し,アモーダルなセマンティックセグメンテーションを訓練するためのデータセットを生成する汎用的な方法を提案する。
この手法を用いて、自動車環境認識におけるアモーダルなセマンティックセグメンテーションの適用性を示すアモーダルなCityscapesデータセットを生成する。
論文 参考訳(メタデータ) (2022-06-01T14:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。