論文の概要: InstructSAM: Segment Any Instance with Any Instructions
- arxiv url: http://arxiv.org/abs/2605.26102v2
- Date: Sun, 31 May 2026 07:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.436022
- Title: InstructSAM: Segment Any Instance with Any Instructions
- Title(参考訳): InstructSAM:任意のインストラクションでインスタンスをセグメンテーションする
- Authors: Yuqian Yuan, Wentong Li, Zhaocheng Li, Yutong Lin, Juncheng Li, Siliang Tang, Jun Xiao, Yueting Zhuang, Wenqiao Zhang,
- Abstract要約: InstructSAMは任意の命令の下でマルチインスタンスセグメンテーションのために設計されたフレームワークである。
学習可能なインスタンスクエリのバンクを視覚言語モデル(VLM)とSAM3に注入する。
ハイブリッドアテンション機構は、これらのクエリ、ビジュアルトークン、命令トークン間の相互作用を促進する。
- 参考スコア(独自算出の注目度): 70.32433456722613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce InstructSAM, a unified and streamlined framework designed for multi-instance segmentation under arbitrary instructions. We formulates instruction-driven instance segmentation as a set-structured query prediction problem and propose an explicit reasoning-to-instance query interface that elegantly bridges a vision-language model (VLM) and SAM3. Specifically, a bank of learnable instance queries is injected into the VLM and contextualized with instruction and visual information, enabling each query to serve as an instance-aware slot. A hybrid-attention mechanism further promotes interaction among these queries, visual tokens, and instruction tokens, improving instance enumeration and reducing duplicate predictions. The resulting LLM-conditioned queries are projected into SAM3's detector query space to drive accurate multi-instance segmentation in a single forward pass. This design equips SAM3 with high-level instruction understanding, compositional reasoning, and instance-level set prediction without modifying its core architecture. To support training and evaluation, we further construct Inst2Seg, a high-quality and large-scale instruction-based instance segmentation dataset and benchmark that couples free-form instructions with instance-level masks. Extensive experiments show that only 2B-scale InstructSAM achieves strong results across complex instruction-driven and phrase-level referring segmentation benchmarks, outperforming prior end-to-end methods and SAM3's agentic pipeline while enabling efficient single-pass multi-instance prediction.
- Abstract(参考訳): 本稿では,任意の命令下でのマルチインスタンスセグメンテーションのために設計された,統一的で合理化されたフレームワークであるInstructSAMを紹介する。
本稿では,命令駆動のインスタンスセグメント化を集合構造的クエリ予測問題として定式化し,視覚言語モデル(VLM)とSAM3をエレガントにブリッジする明示的推論・インスタンスクエリインタフェースを提案する。
具体的には、学習可能なインスタンスクエリのバンクがVLMに注入され、インストラクションと視覚情報によってコンテキスト化され、各クエリがインスタンス対応スロットとして機能する。
ハイブリッドアテンション機構は、これらのクエリ、ビジュアルトークン、命令トークン間の相互作用をさらに促進し、インスタンス列挙を改善し、重複予測を減らす。
LLM条件のクエリはSAM3の検出器クエリ空間に投影され、1つのフォワードパスで正確なマルチインスタンスセグメンテーションを駆動する。
この設計はSAM3に高レベルの命令理解、構成的推論、そしてコアアーキテクチャを変更することなくインスタンスレベルのセット予測を備える。
トレーニングと評価を支援するため,高品質で大規模な命令ベースのインスタンスセグメンテーションデータセットであるInst2Segと,フリーフォーム命令とインスタンスレベルのマスクを結合したベンチマークを構築した。
2BスケールのインストラクタSAMは、複雑な命令駆動およびフレーズレベルの参照セグメンテーションベンチマークにまたがって強力な結果が得られ、従来のエンドツーエンドメソッドやSAM3のエージェントパイプラインよりも優れ、効率的なシングルパスマルチインスタンス予測を実現している。
関連論文リスト
- CLIP-Guided SAM: Parameter-Efficient Semantic Conditioning for Promptable Segmentation [6.517222960194991]
内部的セマンティック・コンディショニングに基づくパラメータ効率のセグメンテーションフレームワークであるCLIP-Guided SAMを提案する。
セマンティック信号のみを使用してプロンプトを生成する代わりに、CLIP由来のテキスト、ビジョン、および類似機能をSAMの画像エンコーダに直接注入する。
我々のフレームワークは低ラベルデータ設定用に設計されており、汎用ベンチマークと特化下流タスクの両方に適用できる。
論文 参考訳(メタデータ) (2026-05-24T01:40:30Z) - SAM3-I: Segment Anything with Instructions [86.92593395772029]
SAM3-Iは概念レベルの理解と命令レベルの推論をSAMファミリー内で統合する拡張フレームワークである。
我々は,概念,単純かつ複雑なレベルにまたがる構造的命令分類を設計し,多様な命令マスク対を持つデータセットを構築するためのスケーラブルなデータエンジンを開発する。
論文 参考訳(メタデータ) (2025-12-04T09:00:25Z) - STARE at the Structure: Steering ICL Exemplar Selection with Structural Alignment [24.80531387685099]
本稿では,効率,一般化性,性能のバランスを保った2段階の模範選択戦略を提案する。
まず、BERTベースのレトリバーを構造意識の監視を用いて微調整し、意味論的に関連性があり構造的に整合した模範を選定する。
次に,隠れ表現において構文的に意味のある情報を増幅するプラグインモジュールを用いて,検索機能を強化した。
論文 参考訳(メタデータ) (2025-08-28T16:04:39Z) - InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition [20.813292459527243]
InstructSAMは、命令駆動オブジェクト認識のためのトレーニング不要のフレームワークである。
我々は、地球観測のための最初のインストラクトCDSベンチマークであるEarthInstructを紹介する。
論文 参考訳(メタデータ) (2025-05-21T17:59:56Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。