論文の概要: Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2602.06333v1
- Date: Fri, 06 Feb 2026 02:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.201169
- Title: Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation
- Title(参考訳): 野生でのSAM3のモデリング:オープン語彙セグメンテーションの概念バンク
- Authors: Gensheng Pei, Xiruo Jiang, Yazhou Yao, Xiangbo Shu, Fumin Shen, Byeungwoo Jeon,
- Abstract要約: TextscConceptBankは、視覚的証拠とプロンプトの整合性を取り戻すためのフレームワークだ。
我々のアプローチは、クラスワイドなビジュアルプロトタイプによるターゲットドメインの証拠をアンロックし、(textitii)マイニングの代表者はデータドリフト下でのアウトリーチを抑えることをサポートし、(textitiii)コンセプトドリフトの修正のために候補概念を融合させる。
- 参考スコア(独自算出の注目度): 57.427604620940734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent introduction of \texttt{SAM3} has revolutionized Open-Vocabulary Segmentation (OVS) through \textit{promptable concept segmentation}, which grounds pixel predictions in flexible concept prompts. However, this reliance on pre-defined concepts makes the model vulnerable: when visual distributions shift (\textit{data drift}) or conditional label distributions evolve (\textit{concept drift}) in the target domain, the alignment between visual evidence and prompts breaks down. In this work, we present \textsc{ConceptBank}, a parameter-free calibration framework to restore this alignment on the fly. Instead of adhering to static prompts, we construct a dataset-specific concept bank from the target statistics. Our approach (\textit{i}) anchors target-domain evidence via class-wise visual prototypes, (\textit{ii}) mines representative supports to suppress outliers under data drift, and (\textit{iii}) fuses candidate concepts to rectify concept drift. We demonstrate that \textsc{ConceptBank} effectively adapts \texttt{SAM3} to distribution drifts, including challenging natural-scene and remote-sensing scenarios, establishing a new baseline for robustness and efficiency in OVS. Code and model are available at https://github.com/pgsmall/ConceptBank.
- Abstract(参考訳): 最近導入された \texttt{SAM3} は、Open-Vocabulary Segmentation (OVS) を \textit{promptable concept segmentation} を通じて革命させた。
視覚分布がシフト(\textit{data drift})または条件付きラベル分布がターゲット領域で進化(\textit{concept drift})すると、視覚的エビデンスとプロンプトのアライメントが崩壊する。
本稿では,パラメータフリーキャリブレーションフレームワークであるtextsc{ConceptBank}を紹介し,このアライメントをオンザフライで復元する。
静的なプロンプトに固執するのではなく、ターゲット統計からデータセット固有の概念バンクを構築する。
我々のアプローチ (\textit{i}) は、クラスワイドなビジュアルプロトタイプを通してターゲットドメインのエビデンスをアンロックし、 (\textit{ii}) 地雷の代表者はデータドリフト下でのアウトリーの抑制を支援し、 (\textit{iii}) は、概念ドリフトの修正のために候補概念を融合する。
我々は,<textsc{ConceptBank} が,自然シーンやリモートセンシングのシナリオに挑戦し,OVS における堅牢性と効率性のための新たなベースラインを確立することを含む,分散ドリフトに対して,効果的に \texttt{SAM3} を適用することを実証した。
コードとモデルはhttps://github.com/pgsmall/ConceptBank.comで入手できる。
関連論文リスト
- Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models [81.43473418572567]
CTR(Click-Through Rate)予測は、レコメンデーションシステムにおける中核的なタスクである。
本稿では,埋め込み次元の崩壊と情報冗長性に対処する新しい生成フレームワークを提案する。
SFGは埋没崩壊を緩和し,情報冗長性を低減し,性能向上を図っている。
論文 参考訳(メタデータ) (2025-12-16T03:17:18Z) - TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection [62.95726973851089]
TokenCLIPは、異常学習のためのトークンワイド適応フレームワークである。
視覚的なテキスト空間と学習可能なテキスト空間の動的アライメントを可能にし、微粒な異常学習を実現する。
論文 参考訳(メタデータ) (2025-10-24T05:51:31Z) - Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation [59.047277629795325]
テキスト・パーソナライズされたオープン語彙セマンティックセマンティック・セグメンテーション」という新しいタスクを導入する。
数組のイメージとマスクを用いて、個人的視覚概念を認識するためのテキストプロンプトチューニングベースのプラグイン手法を提案する。
我々は、個人概念の視覚的埋め込みを注入することで、テキストプロンプトの表現を豊かにすることで、パフォーマンスをさらに向上する。
論文 参考訳(メタデータ) (2025-07-15T06:51:07Z) - Adaptive Concept Bottleneck for Foundation Models Under Distribution Shifts [33.677249894085186]
複雑で非解釈可能な基礎モデルを解釈可能な意思決定パイプラインに変換するための概念ボトルネックモデルの可能性を探る。
具体的には、このような解釈可能なCBMパイプラインを“野生”で”テスト時にデプロイすることに重点を置いています。
提案手法は,テストデータとの整合性を向上し,デプロイ後の精度を最大28%向上させる。
論文 参考訳(メタデータ) (2024-12-18T17:47:46Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Test-time Contrastive Concepts for Open-world Semantic Segmentation with Vision-Language Models [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-06T12:18:43Z) - Neural Concept Binder [22.074896812195437]
本稿では、離散概念表現と連続概念表現の両方を導出するフレームワークであるNeural Concept Binder (NCB)を紹介する。
NCBの概念表現の構造的性質は、直感的な検査と外部知識の直接的な統合を可能にする。
新たに導入したCLEVR-Sudokuデータセットを用いて,NCBの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-14T11:52:09Z) - Conceptual Learning via Embedding Approximations for Reinforcing Interpretability and Transparency [2.7719338074999547]
解釈可能性が最重要である領域において、概念ボトルネックモデル(CBM)が重要なツールとして出現している。
本研究では、アンダーラインtextbfReinforcecing Interpretability and Transparency に対するアンダーラインtextbfEmbedding UnderlinetextbfApproximations によるアンダーラインtextbfConceptual UnderlinetextbfLbeddingを提案する。
論文 参考訳(メタデータ) (2024-06-13T06:04:34Z) - SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Can we Constrain Concept Bottleneck Models to Learn Semantically Meaningful Input Features? [0.6401548653313325]
概念ボトルネックモデル(CBM)は、人間の定義した概念の集合を最初に予測するため、本質的に解釈可能であるとみなされる。
現在の文献では、概念予測は無関係な入力特徴に依存することが多いことを示唆している。
本稿では,CBMが概念を意味的に意味のある入力特徴にマッピングできることを実証する。
論文 参考訳(メタデータ) (2024-02-01T10:18:43Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Grounded Object Centric Learning [46.091323528165205]
本稿では,ベクトル量子化にインスパイアされたemphGrounded Slot Dictionary(GSD)という新しい概念を用いて,emphtextscConditional textscSlot textscAttention(textscCoSA)を提案する。
本稿では,シーン生成や構成,タスク適応など,複数の下流タスクにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2023-07-18T17:11:55Z) - Text-To-Concept (and Back) via Cross-Model Alignment [48.133333356834186]
一方のモデルにおける画像表現と他方のモデルにおける画像表現とのマッピングは、ただの線形層で驚くほどよく学習できることを示す。
固定オフザシェルフビジョンエンコーダを驚くほど強力なゼロショット分類器に無償で変換する。
概念監督なしで概念ボトルネックモデルを構築するなど、テキスト・トゥ・コンセプトの即時使用例を示す。
論文 参考訳(メタデータ) (2023-05-10T18:01:06Z) - ContrastMotion: Self-supervised Scene Motion Learning for Large-Scale
LiDAR Point Clouds [21.6511040107249]
BEV表現を用いたLiDARに基づく自律走行のための新しい自律走行推定器を提案する。
連続するフレームにおける柱間の特徴レベルの整合性によるシーンの動きを予測し,ダイナミックなシーンにおけるノイズポイントや視点変化点雲の影響を解消する。
論文 参考訳(メタデータ) (2023-04-25T05:46:24Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。