論文の概要: Amodal SAM: A Unified Amodal Segmentation Framework with Generalization
- arxiv url: http://arxiv.org/abs/2604.20748v1
- Date: Wed, 22 Apr 2026 16:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.233058
- Title: Amodal SAM: A Unified Amodal Segmentation Framework with Generalization
- Title(参考訳): アモーダルSAM: 一般化を伴う統一アモーダルセグメンテーションフレームワーク
- Authors: Bo Zhang, Zhuotao Tian, Xin Tao, Songlin Tang, Jun Yu, Wenjie Pei,
- Abstract要約: アモーダルSAMは、アモーダルイメージとアモーダルビデオセグメンテーションの両方にSAMを活用する統一フレームワークである。
アモーダルSAMはSAMの強力な一般化能力を保ちながら、その固有の能力をアモーダルセグメンテーションタスクに拡張する。
標準的なベンチマークで最先端のパフォーマンスを実現し、同時に新しいシナリオへの堅牢な一般化を示す。
- 参考スコア(独自算出の注目度): 42.273496337475834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Amodal segmentation is a challenging task that aims to predict the complete geometric shape of objects, including their occluded regions. Although existing methods primarily focus on amodal segmentation within the training domain, these approaches often lack the generalization capacity to extend effectively to novel object categories and unseen contexts. This paper introduces Amodal SAM, a unified framework that leverages SAM (Segment Anything Model) for both amodal image and amodal video segmentation. Amodal SAM preserves the powerful generalization ability of SAM while extending its inherent capabilities to the amodal segmentation task. The improvements lie in three aspects: (1) a lightweight Spatial Completion Adapter that enables occluded region reconstruction, (2) a Target-Aware Occlusion Synthesis (TAOS) pipeline that addresses the scarcity of amodal annotations by generating diverse synthetic training data, and (3) novel learning objectives that enforce regional consistency and topological regularization. Extensive experiments demonstrate that Amodal SAM achieves state-of-the-art performance on standard benchmarks, while simultaneously exhibiting robust generalization to novel scenarios. We anticipate that this research will advance the field toward practical amodal segmentation systems capable of operating effectively in unconstrained real-world environments.
- Abstract(参考訳): アモーダルセグメンテーション(英: Amodal segmentation)は、物体の完全な幾何学的形状を予測することを目的とした課題である。
既存の手法は主にトレーニング領域内のアモーダルセグメンテーションに焦点を当てているが、これらの手法は、新しいオブジェクトカテゴリや目に見えないコンテキストに効果的に拡張する一般化能力に欠けることが多い。
本稿では、Amodal ImageとAmodal Video segmentationの両方にSAM(Segment Anything Model)を活用する統合フレームワークであるAmodal SAMを紹介する。
アモーダルSAMはSAMの強力な一般化能力を保ちながら、その固有の能力をアモーダルセグメンテーションタスクに拡張する。
改良は,(1)領域再構成が可能な軽量な空間補完アダプタ,(2)多種多様な合成学習データを生成することでアモーダルアノテーションの不足に対処するターゲット・アウェア・オクルージョン・シンセサイザー(TAOS)パイプライン,(3)地域整合性とトポロジ的正規化を強制する新たな学習目標の3つの側面にある。
大規模な実験により、Amodal SAMは標準ベンチマークで最先端のパフォーマンスを達成し、同時に新規シナリオへの堅牢な一般化を示した。
本研究は,制約のない実環境において効果的に動作可能な,実用的なアモーダルセグメンテーションシステムに向けての分野を前進させることを期待する。
関連論文リスト
- Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA [49.10341970643037]
アモーダルセグメンテーションは、隠蔽された領域の外観が利用できない場合でも、隠蔽された物体の完全な形状を推測することを目的としている。
現在のアモーダルセグメンテーション手法では、テキスト入力によってユーザと対話する能力が欠如している。
本稿では,隠蔽対象物の完全な非モーダル形状を予測することを目的とした,非モーダル推論セグメンテーション(amodal reasoning segmentation)という新しいタスクを提案する。
論文 参考訳(メタデータ) (2025-03-13T10:08:18Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。
SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。
具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-05T14:54:31Z) - Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus [19.25678147515461]
SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。
地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるために、異なる枝の焦点として、イモダル領域とアモーダル領域が割り当てられる。
ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。
論文 参考訳(メタデータ) (2024-05-25T06:58:20Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。