論文の概要: Learnable Shape Prototypes with Occlusion-Geometry-Guided Injection for Amodal Instance Segmentation
- arxiv url: http://arxiv.org/abs/2605.24533v1
- Date: Sat, 23 May 2026 11:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.169347
- Title: Learnable Shape Prototypes with Occlusion-Geometry-Guided Injection for Amodal Instance Segmentation
- Title(参考訳): Amodal Instance SegmentationのためのOcclusion-Geometry-Guided Injectionを用いた学習可能な形状プロトタイプ
- Authors: Fufan Zhang, Jingxiang Wang, Xiangjie Ye,
- Abstract要約: Amodalのインスタンスセグメンテーションは、ピクセルレベルの観察を欠いた隠蔽領域を含む完全なオブジェクトマスクを予測することを目的としている。
既存の方法では、固定容量符号化空間や高価な生成モデルを通じて形状先を取得する。
本稿では,学習可能なプロトタイプをクロスアテンションで組み合わせた,ゲート型信頼性適応型事前フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.25489046505746704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal instance segmentation aims to predict the complete object mask including occluded regions that lack pixel-level observations and must be inferred with the aid of shape priors. Existing methods acquire shape priors through fixed-capacity encoding spaces or expensive generative models, and inject them uniformly across all spatial positions without adapting to the varying prior demand between visible and occluded regions. In this paper, we propose a gated reliability-adaptive shape prior framework, which introduces a shape prior memory module that combines learnable prototypes via cross-attention to produce instance-adaptive shape priors through weighted prototype combination rather than generation. A spatial adaptive reliability gate then employs the signed distance field of the visible mask to modulate injection intensity at each position according to its occlusion depth, preserving reliable features in visible regions while directing shape compensation toward occluded areas. Experiments on two mainstream amodal instance segmentation benchmarks demonstrate that the proposed method outperforms existing approaches under multiple evaluation settings, improving the mean intersection-over-union over occluded regions by over 11 percentage points on one of the two benchmarks under the standard setting, while using approximately one-third of the total parameters. Linear probing analysis further reveals that the visible-mask cross-attention module implicitly encodes occlusion geometry into visual token representations, explaining the effectiveness of the proposed module decomposition.
- Abstract(参考訳): アモーダル・インスタンス・セグメンテーション(英語版)は、ピクセルレベルの観察が欠如し、形状前の助けを借りて推測されなければならない、隠蔽領域を含む完全なオブジェクトマスクを予測することを目的としている。
既存の方法では、固定容量符号化空間や高価な生成モデルを通じて形状先行を取得し、可視領域と隠蔽領域の間の様々な事前需要に適応することなく、すべての空間的位置を均一に注入する。
本稿では,クロスアテンションにより学習可能なプロトタイプを結合し,生成ではなく重み付けされたプロトタイプの組み合わせにより,インスタンス適応型形状を事前に生成する,ゲート型信頼性適応型メモリモジュールを提案する。
次に、空間適応信頼性ゲートは、可視マスクの符号付き距離場を用いて、その閉塞深さに応じて各位置における噴射強度を変調し、閉塞領域に向けて形状補償を指示しながら、可視領域における信頼性特性を保存する。
2つのメインストリーム・アモーダル・インスタンス・セグメンテーション・ベンチマークの実験では、提案手法は複数の評価条件下で既存の手法よりも優れており、標準条件下での2つのベンチマークのうちの1つにおいて、閉塞領域の平均交叉オーバウンディションを11ポイント以上改善し、総パラメータの3分の1を使用できた。
線形探索解析により、可視マスクのクロスアテンションモジュールは、隠蔽幾何学を暗黙的に視覚トークン表現に符号化し、提案したモジュール分解の有効性を説明する。
関連論文リスト
- Hierarchical Consistency Learning for Test-time Adaptation in Camouflage Perception [50.278200968044665]
カモフラージュされた物体検出(COD)は、物理的属性を通して背景から最小限の知覚差を示すターゲットをローカライズすることを目的としている。
既存のメソッドは、静的なTrain-then-freezeパラダイムによって制約されており、ドメインの剛性と依存性のアノテーションに悩まされている。
動的表現再構成のためのテスト時間適応を統合した階層的一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T09:57:46Z) - IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - Single Point, Full Mask: Velocity-Guided Level Set Evolution for End-to-End Amodal Segmentation [41.188891367216804]
アモーダルセグメンテーションは、視覚的な外観を持たない隠蔽領域を含む完全な物体の形状を復元することを目的としている。
既存の方法は、目に見えるマスクやバウンディングボックスのような強力なプロンプトに頼っている。
本稿では,点ベースのプロンプトから明示的な進化を行うVELAを提案する。
論文 参考訳(メタデータ) (2025-08-03T08:36:13Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Diff-Reg v2: Diffusion-Based Matching Matrix Estimation for Image Matching and 3D Registration [44.88739897482003]
本稿では,行列空間における拡散モデルを利用して,ロバストマッチング行列推定を行う革新的パラダイムを提案する。
具体的には、3D-3Dおよび2D-3D登録タスクに対して2次元行列空間に拡散モデルを適用する。
3つの登録タスクすべてに対して、各タスクの特定の特性に合わせた適応的マッチング行列埋め込み実装を提供する。
論文 参考訳(メタデータ) (2025-03-06T06:13:27Z) - MSP-MVS: Multi-Granularity Segmentation Prior Guided Multi-View Stereo [8.303396507129266]
MSP-MVSは,マルチグラニュラリティセグメンテーションを導入する手法である。
相関信頼画素の等価分布と分解クラスタリングを実装した。
また,グローバルな最小マッチングコストの特定を支援するために,差分サンプリングの相乗的3次元最適化も導入する。
論文 参考訳(メタデータ) (2024-07-27T19:00:44Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Instant recovery of shape from spectrum via latent space connections [33.83258865005668]
ラプラシアンスペクトルから形状を復元する最初の学習法を提案する。
自動エンコーダが与えられた場合、我々のモデルはサイクル整合モジュールの形で潜在ベクトルを固有値列にマッピングする。
我々のデータ駆動型アプローチは、計算コストのごく一部でより正確な結果を提供しながら、事前の手法で必要となるアドホック正規化器の必要性を置き換える。
論文 参考訳(メタデータ) (2020-03-14T00:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。