論文の概要: SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds
- arxiv url: http://arxiv.org/abs/2601.08982v2
- Date: Fri, 16 Jan 2026 08:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.038519
- Title: SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds
- Title(参考訳): SAM-pose2seg: 群衆のPose-Guided Human Instance Segmentation
- Authors: Constantin Kolomiiets, Miroslav Purkrabek, Jiri Matas,
- Abstract要約: 最小エンコーダ修正によるポーズ誘導セグメンテーションにSegment Anything (SAM) を適用した。
反復的修正プロセスに高い可視性を持つポーズキーポイントを組み込む。
推論中、最も可視性の高い3つのキーポイントのみを選択することで、プロンプトを単純化する。
- 参考スコア(独自算出の注目度): 15.318646611581741
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Segment Anything (SAM) provides an unprecedented foundation for human segmentation, but may struggle under occlusion, where keypoints may be partially or fully invisible. We adapt SAM 2.1 for pose-guided segmentation with minimal encoder modifications, retaining its strong generalization. Using a fine-tuning strategy called PoseMaskRefine, we incorporate pose keypoints with high visibility into the iterative correction process originally employed by SAM, yielding improved robustness and accuracy across multiple datasets. During inference, we simplify prompting by selecting only the three keypoints with the highest visibility. This strategy reduces sensitivity to common errors, such as missing body parts or misclassified clothing, and allows accurate mask prediction from as few as a single keypoint. Our results demonstrate that pose-guided fine-tuning of SAM enables effective, occlusion-aware human segmentation while preserving the generalization capabilities of the original model. The code and pretrained models will be available at https://mirapurkrabek.github.io/BBox-Mask-Pose/.
- Abstract(参考訳): SAM(Segment Anything)は、人間のセグメンテーションに先例のない基盤を提供するが、キーポイントが部分的に、あるいは完全に見えなくなる隠蔽の下で苦労する可能性がある。
SAM 2.1 を最小限のエンコーダ修正によるポーズ誘導セグメンテーションに適用し,その強い一般化を維持した。
PoseMaskRefineと呼ばれる微調整戦略を用いて、SAMが当初採用していた反復補正プロセスに高い可視性を持つポーズキーポイントを組み込むことで、複数のデータセット間で堅牢性と精度が向上する。
推論中、最も可視性の高い3つのキーポイントのみを選択することで、プロンプトを単純化する。
この戦略は、身体部分の欠如や分類ミスなどの一般的なエラーに対する感度を低減し、単一のキーポイントから正確なマスク予測を可能にする。
この結果から,SAMのポーズ誘導による微調整により,オリジナルモデルの一般化能力を保ちながら,人間のセグメンテーションを効果的かつ意識的に行うことが可能であることが示唆された。
コードと事前訓練されたモデルはhttps://mirapurkrabek.github.io/BBox-Mask-Pose/.com/で入手できる。
関連論文リスト
- SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-02-10T18:33:15Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - DeSAM: Decoupled Segment Anything Model for Generalizable Medical Image Segmentation [22.974876391669685]
Segment Anything Model (SAM) は、医用画像セグメンテーションのクロスドメインロバスト性を改善する可能性を示している。
SAMは手動でトリガーする時よりも、自動セグメンテーションのシナリオで大幅にパフォーマンスが低下する。
Decoupled SAMはSAMのマスクデコーダを2つの新しいモジュールを導入して変更する。
論文 参考訳(メタデータ) (2023-06-01T09:49:11Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。