論文の概要: Segment Anything, Even Occluded
- arxiv url: http://arxiv.org/abs/2503.06261v1
- Date: Sat, 08 Mar 2025 16:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:10.795015
- Title: Segment Anything, Even Occluded
- Title(参考訳): セグメンテーションって何だ?
- Authors: Wei-En Tai, Yu-Lin Shih, Cheng Sun, Yu-Chiang Frank Wang, Hwann-Tzong Chen,
- Abstract要約: METHODOは、Segment Anything Model(SAM)を多目的マスクデコーダとして適応する新しいフレームワークである。
Amodal-LVISは,LVISデータセットとLVVISデータセットから得られた300K画像からなる大規模合成データセットである。
以上の結果から,COCOA-clsとD2SAベンチマークの両ベンチマークにおいて,新たに拡張されたデータセットでトレーニングした結果,ゼロショット性能が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 35.150696061791805
- License:
- Abstract: Amodal instance segmentation, which aims to detect and segment both visible and invisible parts of objects in images, plays a crucial role in various applications including autonomous driving, robotic manipulation, and scene understanding. While existing methods require training both front-end detectors and mask decoders jointly, this approach lacks flexibility and fails to leverage the strengths of pre-existing modal detectors. To address this limitation, we propose SAMEO, a novel framework that adapts the Segment Anything Model (SAM) as a versatile mask decoder capable of interfacing with various front-end detectors to enable mask prediction even for partially occluded objects. Acknowledging the constraints of limited amodal segmentation datasets, we introduce Amodal-LVIS, a large-scale synthetic dataset comprising 300K images derived from the modal LVIS and LVVIS datasets. This dataset significantly expands the training data available for amodal segmentation research. Our experimental results demonstrate that our approach, when trained on the newly extended dataset, including Amodal-LVIS, achieves remarkable zero-shot performance on both COCOA-cls and D2SA benchmarks, highlighting its potential for generalization to unseen scenarios.
- Abstract(参考訳): 画像中の物体の可視部分と見えない部分の両方を検出し、セグメンテーションすることを目的としたアモーダルインスタンスセグメンテーションは、自律運転、ロボット操作、シーン理解など、さまざまなアプリケーションにおいて重要な役割を果たす。
既存の手法では、フロントエンド検出器とマスクデコーダの両方を共同で訓練する必要があるが、この手法は柔軟性に欠け、既存のモーダル検出器の強度を活用できない。
この制限に対処するため,Segment Anything Model (SAM) を多目的マスクデコーダとして適用し,様々なフロントエンド検出器と対面し,部分的に隠蔽されたオブジェクトに対してもマスク予測を可能にする新しいフレームワークであるTOOを提案する。
制限されたアモーダルセグメンテーションデータセットの制約を認識し,モーダルLVISおよびLVVISデータセットから得られた300K画像からなる大規模合成データセットであるAmodal-LVISを紹介する。
このデータセットは、アモーダルセグメンテーション研究で利用可能なトレーニングデータを著しく拡張する。
実験の結果、Amodal-LVISを含む新たに拡張されたデータセットでトレーニングした結果、COCOA-clsとD2SAベンチマークの両方で顕著なゼロショット性能を実現し、目に見えないシナリオへの一般化の可能性を強調した。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - A2VIS: Amodal-Aware Approach to Video Instance Segmentation [8.082593574401704]
本稿では,映像中のオブジェクトの包括的理解を実現するために,アモーダル表現を取り入れた新しいフレームワーク,A2VISを提案する。
A2VIS(Amodal-Aware Video Instance)は、ビデオ内のオブジェクトの可視部分と隠蔽部分の両方について、信頼性の高い包括的な理解を実現するために、アモーダル表現を取り入れている。
論文 参考訳(メタデータ) (2024-12-02T05:44:29Z) - Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーションは、世界の認識と認知的理解を結びつけることを目的としている。
我々は、このタスクをマルチラベルおよびマルチクラス問題として扱う、プロポーザルフリーフレームワークを定式化する。
共有バックボーンと非対称なデュアルデコーダを組み込んだネットアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-29T12:05:07Z) - Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーション (amodal panoptic segmentation) と呼ばれる新しいタスクを定式化し提案する。
このタスクの目的は、オブジェクトクラスの可視領域のピクセル単位の意味的セグメンテーションラベルを同時に予測することである。
本稿では,この課題に対処するための第一歩として,新しいアモーダル・パノプティクス・セグメンテーション・ネットワーク(APSNet)を提案する。
論文 参考訳(メタデータ) (2022-02-23T14:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。