論文の概要: MIQ-SAM3D: From Single-Point Prompt to Multi-Instance Segmentation via Competitive Query Refinement
- arxiv url: http://arxiv.org/abs/2511.01345v1
- Date: Mon, 03 Nov 2025 08:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.181479
- Title: MIQ-SAM3D: From Single-Point Prompt to Multi-Instance Segmentation via Competitive Query Refinement
- Title(参考訳): MIQ-SAM3D: 競合クエリリファインメントによるシングルポイントプロンプトからマルチインスタンスセグメンテーションへ
- Authors: Jierui Qu, Jianchun Zhao,
- Abstract要約: 競合クエリ最適化戦略を備えたマルチインスタンス3DセグメンテーションフレームワークMIQ-SAM3Dを提案する。
プロンプト条件のインスタンスクエリジェネレータは、単一ポイントプロンプトを複数の特別なクエリに変換する。
ハイブリッドCNNトランスフォーマーエンコーダは、空間ゲーティングを介して、CNN由来の境界塩分をViT自己注意に注入する。
競合的に最適化されたクエリデコーダは、エンドツーエンド、並列、マルチインスタンスの予測を可能にする。
- 参考スコア(独自算出の注目度): 0.328418927821443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate segmentation of medical images is fundamental to tumor diagnosis and treatment planning. SAM-based interactive segmentation has gained attention for its strong generalization, but most methods follow a single-point-to-single-object paradigm, which limits multi-lesion segmentation. Moreover, ViT backbones capture global context but often miss high-fidelity local details. We propose MIQ-SAM3D, a multi-instance 3D segmentation framework with a competitive query optimization strategy that shifts from single-point-to-single-mask to single-point-to-multi-instance. A prompt-conditioned instance-query generator transforms a single point prompt into multiple specialized queries, enabling retrieval of all semantically similar lesions across the 3D volume from a single exemplar. A hybrid CNN-Transformer encoder injects CNN-derived boundary saliency into ViT self-attention via spatial gating. A competitively optimized query decoder then enables end-to-end, parallel, multi-instance prediction through inter-query competition. On LiTS17 and KiTS21 dataset, MIQ-SAM3D achieved comparable levels and exhibits strong robustness to prompts, providing a practical solution for efficient annotation of clinically relevant multi-lesion cases.
- Abstract(参考訳): 医用画像の正確なセグメンテーションは、腫瘍の診断と治療計画に不可欠である。
SAMベースのインタラクティブセグメンテーションは、その強力な一般化によって注目されているが、ほとんどのメソッドは、多列セグメンテーションを制限するシングルポイント・ツー・シングルオブジェクトのパラダイムに従っている。
さらに、ViTバックボーンはグローバルコンテキストをキャプチャするが、しばしば高忠実度ローカル詳細を見逃す。
マルチインスタンスの3Dセグメント化フレームワークMIQ-SAM3Dを提案する。
プロンプト条件のインスタンスクエリジェネレータは、単一のポイントプロンプトを複数の特別なクエリに変換し、単一の例から3Dボリューム全体にわたって意味的に類似したすべての病変を検索する。
ハイブリッドCNNトランスフォーマーエンコーダは、空間ゲーティングを介して、CNN由来の境界塩分をViT自己注意に注入する。
競合的に最適化されたクエリデコーダは、クエリ間の競合を通じてエンドツーエンド、並列、マルチインスタンスの予測を可能にする。
LiTS17とKiTS21のデータセットでは、MIQ-SAM3Dは同等のレベルに達し、プロンプトに対して強い堅牢性を示し、臨床的に関連する多症例の効率的なアノテーションのための実用的な解決策を提供する。
関連論文リスト
- BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts [2.2261951153501274]
BiPrompt-SAMは、新しいデュアルモーダルプロンプトセグメンテーションフレームワークである。
複雑なモデル修正なしに、空間的精度と意味的文脈を融合する。
これはEndovis17の医療データセット上で強力なゼロショットパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-25T15:38:55Z) - S4M: Segment Anything with 4 Extreme Points [2.052287962818431]
Segment Anything Model (SAM) は主にポイントやバウンディングボックスのようなスパースプロンプトに依存している。
S4Mは、インスタンスのトップポイント、ボトムポイント、左ポイント、右ポイントといった極端なポイントを活用することでSAMを強化します。
S4Mは3つの内視鏡的外科的データセットで他のSAMベースのアプローチより優れている。
論文 参考訳(メタデータ) (2025-03-07T16:02:11Z) - CompetitorFormer: Competitor Transformer for 3D Instance Segmentation [8.201162826445252]
トランスフォーマーベースの手法が3Dインスタンスセグメンテーションの主要なアプローチとなっている。
現在のモデルは、シーン内に存在するインスタンスよりも、固定的で高いクエリを使用する。
このようなインスタンスでは、複数のクエリが同じインスタンスを予測しますが、最終的には1つのクエリのみが最適化されます。
論文 参考訳(メタデータ) (2024-11-21T14:40:49Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z) - Multiplex-detection Based Multiple Instance Learning Network for Whole
Slide Image Classification [2.61155594652503]
マルチ・インスタンス・ラーニング(MIL)は、診断病理のためのスライド画像全体(WSI)を分類する強力な手法である。
本稿では,上記の問題に対処するために,MDMIL(Multiple-detection-based multiple instance learning)を提案する。
具体的には、MDMILは内部クエリ生成モジュール(IQGM)と多重検出モジュール(MDM)によって構成される。
論文 参考訳(メタデータ) (2022-08-06T14:36:48Z) - PointInst3D: Segmenting 3D Instances by Points [136.7261709896713]
本稿では,ポイント単位の予測方式で機能する,完全畳み込み型3Dポイントクラウドインスタンスセグメンテーション手法を提案する。
その成功の鍵は、各サンプルポイントに適切なターゲットを割り当てることにある。
提案手法はScanNetとS3DISのベンチマークで有望な結果が得られる。
論文 参考訳(メタデータ) (2022-04-25T02:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。