論文の概要: Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2602.06333v1
- Date: Fri, 06 Feb 2026 02:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.201169
- Title: Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation
- Title(参考訳): 野生でのSAM3のモデリング:オープン語彙セグメンテーションの概念バンク
- Authors: Gensheng Pei, Xiruo Jiang, Yazhou Yao, Xiangbo Shu, Fumin Shen, Byeungwoo Jeon,
- Abstract要約: TextscConceptBankは、視覚的証拠とプロンプトの整合性を取り戻すためのフレームワークだ。
我々のアプローチは、クラスワイドなビジュアルプロトタイプによるターゲットドメインの証拠をアンロックし、(textitii)マイニングの代表者はデータドリフト下でのアウトリーチを抑えることをサポートし、(textitiii)コンセプトドリフトの修正のために候補概念を融合させる。
- 参考スコア(独自算出の注目度): 57.427604620940734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent introduction of \texttt{SAM3} has revolutionized Open-Vocabulary Segmentation (OVS) through \textit{promptable concept segmentation}, which grounds pixel predictions in flexible concept prompts. However, this reliance on pre-defined concepts makes the model vulnerable: when visual distributions shift (\textit{data drift}) or conditional label distributions evolve (\textit{concept drift}) in the target domain, the alignment between visual evidence and prompts breaks down. In this work, we present \textsc{ConceptBank}, a parameter-free calibration framework to restore this alignment on the fly. Instead of adhering to static prompts, we construct a dataset-specific concept bank from the target statistics. Our approach (\textit{i}) anchors target-domain evidence via class-wise visual prototypes, (\textit{ii}) mines representative supports to suppress outliers under data drift, and (\textit{iii}) fuses candidate concepts to rectify concept drift. We demonstrate that \textsc{ConceptBank} effectively adapts \texttt{SAM3} to distribution drifts, including challenging natural-scene and remote-sensing scenarios, establishing a new baseline for robustness and efficiency in OVS. Code and model are available at https://github.com/pgsmall/ConceptBank.
- Abstract(参考訳): 最近導入された \texttt{SAM3} は、Open-Vocabulary Segmentation (OVS) を \textit{promptable concept segmentation} を通じて革命させた。
視覚分布がシフト(\textit{data drift})または条件付きラベル分布がターゲット領域で進化(\textit{concept drift})すると、視覚的エビデンスとプロンプトのアライメントが崩壊する。
本稿では,パラメータフリーキャリブレーションフレームワークであるtextsc{ConceptBank}を紹介し,このアライメントをオンザフライで復元する。
静的なプロンプトに固執するのではなく、ターゲット統計からデータセット固有の概念バンクを構築する。
我々のアプローチ (\textit{i}) は、クラスワイドなビジュアルプロトタイプを通してターゲットドメインのエビデンスをアンロックし、 (\textit{ii}) 地雷の代表者はデータドリフト下でのアウトリーの抑制を支援し、 (\textit{iii}) は、概念ドリフトの修正のために候補概念を融合する。
我々は,<textsc{ConceptBank} が,自然シーンやリモートセンシングのシナリオに挑戦し,OVS における堅牢性と効率性のための新たなベースラインを確立することを含む,分散ドリフトに対して,効果的に \texttt{SAM3} を適用することを実証した。
コードとモデルはhttps://github.com/pgsmall/ConceptBank.comで入手できる。
関連論文リスト
- TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection [62.95726973851089]
TokenCLIPは、異常学習のためのトークンワイド適応フレームワークである。
視覚的なテキスト空間と学習可能なテキスト空間の動的アライメントを可能にし、微粒な異常学習を実現する。
論文 参考訳(メタデータ) (2025-10-24T05:51:31Z) - Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation [59.047277629795325]
テキスト・パーソナライズされたオープン語彙セマンティックセマンティック・セグメンテーション」という新しいタスクを導入する。
数組のイメージとマスクを用いて、個人的視覚概念を認識するためのテキストプロンプトチューニングベースのプラグイン手法を提案する。
我々は、個人概念の視覚的埋め込みを注入することで、テキストプロンプトの表現を豊かにすることで、パフォーマンスをさらに向上する。
論文 参考訳(メタデータ) (2025-07-15T06:51:07Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Test-time Contrastive Concepts for Open-world Semantic Segmentation with Vision-Language Models [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-06T12:18:43Z) - Can we Constrain Concept Bottleneck Models to Learn Semantically Meaningful Input Features? [0.6401548653313325]
概念ボトルネックモデル(CBM)は、人間の定義した概念の集合を最初に予測するため、本質的に解釈可能であるとみなされる。
現在の文献では、概念予測は無関係な入力特徴に依存することが多いことを示唆している。
本稿では,CBMが概念を意味的に意味のある入力特徴にマッピングできることを実証する。
論文 参考訳(メタデータ) (2024-02-01T10:18:43Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Grounded Object Centric Learning [46.091323528165205]
本稿では,ベクトル量子化にインスパイアされたemphGrounded Slot Dictionary(GSD)という新しい概念を用いて,emphtextscConditional textscSlot textscAttention(textscCoSA)を提案する。
本稿では,シーン生成や構成,タスク適応など,複数の下流タスクにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2023-07-18T17:11:55Z) - Text-To-Concept (and Back) via Cross-Model Alignment [48.133333356834186]
一方のモデルにおける画像表現と他方のモデルにおける画像表現とのマッピングは、ただの線形層で驚くほどよく学習できることを示す。
固定オフザシェルフビジョンエンコーダを驚くほど強力なゼロショット分類器に無償で変換する。
概念監督なしで概念ボトルネックモデルを構築するなど、テキスト・トゥ・コンセプトの即時使用例を示す。
論文 参考訳(メタデータ) (2023-05-10T18:01:06Z) - ContrastMotion: Self-supervised Scene Motion Learning for Large-Scale
LiDAR Point Clouds [21.6511040107249]
BEV表現を用いたLiDARに基づく自律走行のための新しい自律走行推定器を提案する。
連続するフレームにおける柱間の特徴レベルの整合性によるシーンの動きを予測し,ダイナミックなシーンにおけるノイズポイントや視点変化点雲の影響を解消する。
論文 参考訳(メタデータ) (2023-04-25T05:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。