論文の概要: SAM3-I: Segment Anything with Instructions
- arxiv url: http://arxiv.org/abs/2512.04585v1
- Date: Thu, 04 Dec 2025 09:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.080957
- Title: SAM3-I: Segment Anything with Instructions
- Title(参考訳): SAM3-I: インストラクションによるセグメンテーション
- Authors: Jingjing Li, Yue Feng, Yuchen Guo, Jincai Huang, Yongri Piao, Qi Bi, Miao Zhang, Xiaoqi Zhao, Qiang Chen, Shihao Zou, Wei Ji, Huchuan Lu, Li Cheng,
- Abstract要約: SAM3-Iは概念レベルの理解と命令レベルの推論をSAMファミリー内で統合する拡張フレームワークである。
我々は,概念,単純かつ複雑なレベルにまたがる構造的命令分類を設計し,多様な命令マスク対を持つデータセットを構築するためのスケーラブルなデータエンジンを開発する。
- 参考スコア(独自算出の注目度): 86.92593395772029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segment Anything Model 3 (SAM3) has advanced open-vocabulary segmentation through promptable concept segmentation, allowing users to segment all instances corresponding to a given concept, typically specified with short noun-phrase (NP) prompts. While this marks the first integration of language-level concepts within the SAM family, real-world usage typically requires far richer expressions that include attributes, spatial relations, functionalities, actions, states, and even implicit reasoning over instances. Currently, SAM3 relies on external multi-modal agents to convert complex instructions into NPs and then conduct iterative mask filtering. However, these NP-level concepts remain overly coarse, often failing to precisely represent a specific instance. In this work, we present SAM3-I, an enhanced framework that unifies concept-level understanding and instruction-level reasoning within the SAM family. SAM3-I introduces an instruction-aware cascaded adaptation mechanism that progressively aligns expressive instruction semantics with SAM3's existing vision-language representations, enabling direct instruction-following segmentation without sacrificing its original concept-driven capabilities. Furthermore, we design a structured instruction taxonomy spanning concept, simple, and complex levels, and develop a scalable data engine to construct a dataset with diverse instruction-mask pairs. Experiments show that SAM3-I delivers appealing performance, demonstrating that SAM3 can be effectively extended to follow natural-language instructions while preserving its strong concept grounding. We open-source SAM3-I and provide practical fine-tuning workflows, enabling researchers to adapt it to domain-specific applications. The source code is available here.
- Abstract(参考訳): Segment Anything Model 3 (SAM3) は、任意の概念に対応する全てのインスタンスを、通常、短い名詞句(NP)プロンプトで指定する。
これはSAMファミリ内の言語レベルの概念を初めて統合したものだが、実際の使用には属性、空間関係、機能、アクション、状態、さらにはインスタンスに対する暗黙の推論を含む、はるかにリッチな表現が必要である。
現在、SAM3は複雑な命令をNPに変換し、反復的なマスクフィルタリングを行うために外部のマルチモーダルエージェントに依存している。
しかしながら、これらのNPレベルの概念は、しばしば特定のインスタンスを正確に表すことができないため、非常に粗いままである。
本研究では,概念レベルの理解と命令レベルの推論をSAMファミリー内で統合するフレームワークであるSAM3-Iを提案する。
SAM3-Iは、表現力のある命令セマンティクスとSAM3の既存の視覚言語表現とを段階的に整合させる命令認識のカスケード適応機構を導入し、元の概念駆動能力を犠牲にすることなく直接命令追従セグメンテーションを可能にする。
さらに, 概念, 単純, 複雑レベルにまたがる構造的命令分類を設計し, 多様な命令マスク対を持つデータセットを構築するためのスケーラブルなデータエンジンを開発する。
SAM3-Iは、強力な概念基盤を保ちながら、自然言語の指示に従うためにSAM3を効果的に拡張できることを示した。
我々はSAM3-Iをオープンソース化し、研究者がドメイン固有のアプリケーションに適応できるように、実用的な微調整ワークフローを提供する。
ソースコードはここにある。
関連論文リスト
- OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts [20.327695503392274]
OpenWorldSAMは,Segment Anything Model v2 (SAM2) をオープン語彙シナリオに拡張するフレームワークである。
OpenWorldSAMは、カテゴリレベルの言語記述や文レベルの言語記述など、さまざまなプロンプトをサポートしている。
我々は,新しい位置決め型タイブレーカー埋め込みとクロスアテンション層により,モデルの空間的理解を高める。
論文 参考訳(メタデータ) (2025-07-07T19:16:22Z) - Talk2SAM: Text-Guided Semantic Enhancement for Complex-Shaped Object Segmentation [0.0]
本研究では,オブジェクトセグメンテーションを改善するためにテキストガイダンスを統合する新しいアプローチであるTalk2SAMを提案する。
ユーザが提供するテキストプロンプトから派生したCLIPベースの埋め込みを使用して、関連する意味領域を識別する。
Talk2SAMはSAM-HQを一貫して上回り、IoUは+5.9%、IoUは+8.3%である。
論文 参考訳(メタデータ) (2025-06-03T19:53:10Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。