論文の概要: Single Point, Full Mask: Velocity-Guided Level Set Evolution for End-to-End Amodal Segmentation
- arxiv url: http://arxiv.org/abs/2508.01661v1
- Date: Sun, 03 Aug 2025 08:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.994834
- Title: Single Point, Full Mask: Velocity-Guided Level Set Evolution for End-to-End Amodal Segmentation
- Title(参考訳): 単一点, フルマスク: エンド・ツー・エンド・アモーダルセグメンテーションのための速度誘導レベルセットの進化
- Authors: Zhixuan Li, Yujia Liu, Chen Hui, Weisi Lin,
- Abstract要約: アモーダルセグメンテーションは、視覚的な外観を持たない隠蔽領域を含む完全な物体の形状を復元することを目的としている。
既存の方法は、目に見えるマスクやバウンディングボックスのような強力なプロンプトに頼っている。
本稿では,点ベースのプロンプトから明示的な進化を行うVELAを提案する。
- 参考スコア(独自算出の注目度): 41.188891367216804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal segmentation aims to recover complete object shapes, including occluded regions with no visual appearance, whereas conventional segmentation focuses solely on visible areas. Existing methods typically rely on strong prompts, such as visible masks or bounding boxes, which are costly or impractical to obtain in real-world settings. While recent approaches such as the Segment Anything Model (SAM) support point-based prompts for guidance, they often perform direct mask regression without explicitly modeling shape evolution, limiting generalization in complex occlusion scenarios. Moreover, most existing methods suffer from a black-box nature, lacking geometric interpretability and offering limited insight into how occluded shapes are inferred. To deal with these limitations, we propose VELA, an end-to-end VElocity-driven Level-set Amodal segmentation method that performs explicit contour evolution from point-based prompts. VELA first constructs an initial level set function from image features and the point input, which then progressively evolves into the final amodal mask under the guidance of a shape-specific motion field predicted by a fully differentiable network. This network learns to generate evolution dynamics at each step, enabling geometrically grounded and topologically flexible contour modeling. Extensive experiments on COCOA-cls, D2SA, and KINS benchmarks demonstrate that VELA outperforms existing strongly prompted methods while requiring only a single-point prompt, validating the effectiveness of interpretable geometric modeling under weak guidance. The code will be publicly released.
- Abstract(参考訳): アモーダルセグメンテーションは、視覚的な外観を持たない隠蔽領域を含む完全な物体の形状を復元することを目的としており、一方、従来のセグメンテーションは可視領域のみに焦点を当てている。
既存の方法は通常、目に見えるマスクやバウンディングボックスのような強力なプロンプトに頼っている。
SAM(Segment Anything Model)のような最近のアプローチでは、誘導のためのポイントベースのプロンプトがサポートされているが、多くの場合、形状の進化を明示的にモデル化せずに直接マスクの回帰を行い、複雑な閉塞シナリオにおける一般化を制限する。
さらに、既存のほとんどの手法はブラックボックスの性質に悩まされており、幾何学的解釈性に欠けており、閉ざされた形状がどのように推測されるかについての限られた洞察を与えている。
これらの制約に対処するため,VELAを提案する。VELAはVElocity-driven Level-set Amodal segmentation法で,点ベースプロンプトからの輪郭展開を明示する。
VELAはまず、画像特徴と点入力から初期レベルセット関数を構築し、その後、完全に微分可能なネットワークによって予測される形状特異的な運動場の誘導の下で最終アモーダルマスクへと徐々に進化する。
このネットワークは各ステップで進化力学を学習し、幾何学的に接地し、位相的に柔軟な輪郭モデリングを可能にする。
COCOA-cls、D2SA、KINSベンチマークの大規模な実験では、VELAはシングルポイントプロンプトのみを必要としながら、既存の強い刺激的手法よりも優れており、弱い誘導下での解釈可能な幾何学的モデリングの有効性が検証されている。
コードは公開されます。
関連論文リスト
- PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter [54.33433051500349]
本稿では,事前学習モデルのすべての層から順序付き特徴系列を構成するPMAを提案する。
また、異なる層にまたがって共有される幾何学制約ゲートプロンプトジェネレータ(G2PG)を提案する。
論文 参考訳(メタデータ) (2025-05-27T09:27:16Z) - Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA [49.10341970643037]
アモーダルセグメンテーションは、隠蔽された領域の外観が利用できない場合でも、隠蔽された物体の完全な形状を推測することを目的としている。
現在のアモーダルセグメンテーション手法では、テキスト入力によってユーザと対話する能力が欠如している。
本稿では,隠蔽対象物の完全な非モーダル形状を予測することを目的とした,非モーダル推論セグメンテーション(amodal reasoning segmentation)という新しいタスクを提案する。
論文 参考訳(メタデータ) (2025-03-13T10:08:18Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - BLADE: Box-Level Supervised Amodal Segmentation through Directed
Expansion [10.57956193654977]
Boxレベルの教師付きアモーダルセグメンテーションは、この課題に対処する。
可視マスクから対応するアモーダルマスクへの指向性拡張アプローチを導入することで,新しい解を提案する。
このアプローチでは、オーバーラップする領域 – 異なるインスタンスが交わる領域 – に基づいた、ハイブリッドなエンドツーエンドネットワークが関係しています。
論文 参考訳(メタデータ) (2024-01-03T09:37:03Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Growing Instance Mask on Leaf [12.312639923806548]
設計の複雑さを抑えるために,textbfVeinMask というシングルショット方式を提案する。
上述の優越性を考慮すると、インスタンス分割問題を定式化するためにVeinMaskを提案する。
VeinMaskは、設計の複雑さが低い他の輪郭ベースの方法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-11-30T04:50:56Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - Learning Vector Quantized Shape Code for Amodal Blastomere Instance
Segmentation [33.558545104711186]
Amodalのインスタンスセグメンテーションは、オブジェクトが完全に見えない場合でも、オブジェクトの完全なシルエットを復元することを目的としている。
本稿では,入力特徴を中間形状コードに分類し,それらから完全なオブジェクト形状を復元することを提案する。
In vitro 受精 (IVF) クリニックにおけるブラストマーの正確な測定が可能となる。
論文 参考訳(メタデータ) (2020-12-02T06:17:28Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。