論文の概要: Amodal segmentation just like doing a jigsaw
- arxiv url: http://arxiv.org/abs/2107.07464v1
- Date: Thu, 15 Jul 2021 17:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:59:32.971643
- Title: Amodal segmentation just like doing a jigsaw
- Title(参考訳): amodal segmentation (複数形 amodal segmentations)
- Authors: Xunli Zeng and Jianqin Yin
- Abstract要約: アモーダルセグメンテーションはインスタンスセグメンテーションの新しい方向である。
本稿では,ジグソーのアイデアに基づくアモーダルセグメンテーション手法を提案する。
2つの広く使われているアモディカルアノテートデータセットの実験により、我々の手法が既存の最先端の手法を超えていることが証明された。
- 参考スコア(独自算出の注目度): 0.4568777157687961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal segmentation is a new direction of instance segmentation while
considering the segmentation of the visible and occluded parts of the instance.
The existing state-of-the-art method uses multi-task branches to predict the
amodal part and the visible part separately and subtract the visible part from
the amodal part to obtain the occluded part. However, the amodal part contains
visible information. Therefore, the separated prediction method will generate
duplicate information. Different from this method, we propose a method of
amodal segmentation based on the idea of the jigsaw. The method uses multi-task
branches to predict the two naturally decoupled parts of visible and occluded,
which is like getting two matching jigsaw pieces. Then put the two jigsaw
pieces together to get the amodal part. This makes each branch focus on the
modeling of the object. And we believe that there are certain rules in the
occlusion relationship in the real world. This is a kind of occlusion context
information. This jigsaw method can better model the occlusion relationship and
use the occlusion context information, which is important for amodal
segmentation. Experiments on two widely used amodally annotated datasets prove
that our method exceeds existing state-of-the-art methods. The source code of
this work will be made public soon.
- Abstract(参考訳): アモーダルセグメンテーションはインスタンスセグメンテーションの新しい方向であり、インスタンスの可視部分とオクルード部分のセグメンテーションを考慮している。
既存の最先端手法では、マルチタスク分岐を用いて、アモーダル部と可視部とを別々に予測し、視認部をアモーダル部から減算し、オクルード部を得る。
しかし、アモーダル部分は可視情報を含む。
したがって、分離予測方法は重複情報を生成する。
本手法とは違って,jigsaw の考え方に基づくアモーダルセグメンテーション手法を提案する。
この方法は、マルチタスクブランチを使用して、可視性とoccludedの2つの自然に分離された部分を予測する。
次に2つのjigsawを組み合わせることで、amodal部分を得る。
これにより、各ブランチはオブジェクトのモデリングに集中する。
そして私たちは、現実世界には隠蔽関係に一定のルールがあると考えています。
これは一種の閉塞コンテキスト情報です。
このジグソーグ法は、咬合関係をモデル化し、咬合コンテキスト情報を利用することができ、これはアモーダルセグメンテーションにとって重要である。
2つの広く使われているアモディカルアノテートデータセットの実験は、我々の手法が既存の最先端の手法を超えることを証明している。
この作業のソースコードはまもなく公開される予定だ。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation [11.51684042494713]
ShapeFormerは、可視的からアモーダルな遷移を持つTransformerベースのモデルである。
これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。
ShapeFormerは3つの主要なモジュールから構成される: 可視性オクルージョンマスクヘッド(Visible-Occluding Mask Head) 隠蔽認識による視認性セグメンテーション(Visible-Occluding Mask Head) および (ii) アモーダルマスクと隠蔽マスク(Occluded masks) および (iii) 形状事前知識を提供するためのカテゴリー特定形状マスクマスクヘッド(Caegory-Specific Shape Pretriever) である。
論文 参考訳(メタデータ) (2024-03-18T00:03:48Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Coarse-to-Fine Amodal Segmentation with Shape Prior [52.38348188589834]
アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-31T15:56:29Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - Amodal Segmentation through Out-of-Task and Out-of-Distribution
Generalization with a Bayesian Model [19.235173141731885]
アモーダル補完は人間が容易に実行できる視覚的タスクであるが、コンピュータビジョンアルゴリズムでは難しい。
我々は、アモーダルセグメンテーションをout-of-taskおよびout-of-distribution generalization問題として定式化する。
我々のアルゴリズムは、同じ監督方法を使用する代替手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-10-25T18:01:26Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。