論文の概要: CoCo-SAM3: Harnessing Concept Conflict in Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.19648v1
- Date: Tue, 21 Apr 2026 16:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.874471
- Title: CoCo-SAM3: Harnessing Concept Conflict in Open-Vocabulary Semantic Segmentation
- Title(参考訳): CoCo-SAM3:オープンボキャブラリセマンティックセグメンテーションにおけるハーネスング概念の対立
- Authors: Yanhui Chen, Baoyao Yang, Siqi Liu, Jingchao Wang,
- Abstract要約: CoCo-SAM3は推論をクラス内エンハンスメントとクラス間コンペティションに明確に分離する。
提案手法はまず,概念整合性を強化するための同義的なプロンプトから証拠を整理,集約する。
その後、統一された比較スケールでクラス間の競合を実行し、すべての候補クラス間でピクセル単位で直接比較できる。
- 参考スコア(独自算出の注目度): 12.625914654680694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SAM3 advances open-vocabulary semantic segmentation by introducing a prompt-driven mask generation paradigm. However, in multi-class open-vocabulary scenarios, masks generated independently from different category prompts lack a unified and inter-class comparable evidence scale, often resulting in overlapping coverage and unstable competition. Moreover, synonymous expressions of the same concept tend to activate inconsistent semantic and spatial evidence, leading to intra-class drift that exacerbates inter-class conflicts and compromises overall inference stability. To address these issues, we propose CoCo-SAM3 (Concept-Conflict SAM3), which explicitly decouples inference into intra-class enhancement and inter-class competition. Our method first aligns and aggregates evidence from synonymous prompts to strengthen concept consistency. It then performs inter-class competition on a unified comparable scale, enabling direct pixel-wise comparisons among all candidate classes. This mechanism stabilizes multi-class inference and effectively mitigates inter-class conflicts. Without requiring any additional training, CoCo-SAM3 achieves consistent improvements across eight open-vocabulary semantic segmentation benchmarks.
- Abstract(参考訳): SAM3は、プロンプト駆動マスク生成パラダイムを導入することにより、オープン語彙セマンティックセマンティックセマンティクスを進化させる。
しかし、マルチクラスのオープン語彙のシナリオでは、異なるカテゴリから独立して生成されるマスクは、統一的でクラス間の同等なエビデンス尺度が欠如しており、しばしば重複するカバレッジと不安定な競合をもたらす。
さらに、同じ概念の同義語表現は、一貫性のない意味と空間的証拠を活性化する傾向があり、クラス間の紛争を悪化させ、全体的な推論安定性を損なうクラス内ドリフトにつながる。
これらの問題に対処するため,クラス内拡張とクラス間競争に推論を明示的に分離するCoCo-SAM3(Concept-Conflict SAM3)を提案する。
提案手法はまず,概念整合性を強化するための同義的なプロンプトから証拠を整理,集約する。
その後、統一された比較スケールでクラス間の競合を実行し、すべての候補クラス間でピクセル単位で直接比較できる。
このメカニズムは多クラス推論を安定化し、クラス間の競合を効果的に緩和する。
追加のトレーニングを必要とせずに、CoCo-SAM3は8つのオープン語彙セマンティックセマンティクスベンチマークで一貫した改善を実現している。
関連論文リスト
- Towards Uniformity and Alignment for Multimodal Representation Learning [66.87764574237532]
マルチモーダル体制における2つの対立は、モダリティの数が増えるにつれて悪化する。
マルチモーダル表現に対するアライメントと均一性の原理的分離を提案する。
次に,本手法が複数モード分布上の大域的Hlder分散の効率的なプロキシとして機能することを理論的に保証する。
論文 参考訳(メタデータ) (2026-02-10T08:08:07Z) - Contrastive Prompt Clustering for Weakly Supervised Semantic Segmentation [41.065931555596975]
本稿では,新しいWSSSフレームワークであるContrastive Prompt Clustering (CPC)を提案する。
CPCはLarge Language Models (LLM) を利用して、固有のクラス間の関係を符号化するカテゴリクラスタを導出する。
PASCAL VOC 2012 と MS 2014 の実験では、CPC がWSSS の既存の最先端手法を上回ることが示されている。
論文 参考訳(メタデータ) (2025-08-23T12:49:08Z) - Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic Learning [65.75756724642932]
不完全なマルチビュークラスタリングでは、欠落したデータがビュー内のプロトタイプシフトとビュー間のセマンティック不整合を誘導する。
コンセンサスセマンティクス学習(FreeCSL)のためのIMVCフレームワークを提案する。
FreeCSLは、最先端の競合他社と比較して、IMVCタスクの信頼性と堅牢な割り当てを実現している。
論文 参考訳(メタデータ) (2025-05-16T12:37:10Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - Generalizable Heterogeneous Federated Cross-Correlation and Instance
Similarity Learning [60.058083574671834]
本稿では,新しいFCCL+,フェデレーション相関と非ターゲット蒸留との類似性学習を提案する。
不均一な問題に対しては、無関係な公開データを通信に活用する。
局所的な更新段階における破滅的な忘れ物として、FCCL+はFederated Non Target Distillationを導入している。
論文 参考訳(メタデータ) (2023-09-28T09:32:27Z) - Margin Preserving Self-paced Contrastive Learning Towards Domain
Adaptation for Medical Image Segmentation [51.93711960601973]
クロスモーダル医療画像セグメンテーションのための自己ペースコントラスト学習モデルを保存する新しいマージンを提案する。
プログレッシブに洗練されたセマンティックプロトタイプの指導により、埋め込み表現空間の識別性を高めるために、コントラスト損失を減少させる新しいマージンが提案される。
クロスモーダル心セグメンテーションタスクの実験は、MPSCLが意味セグメンテーション性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-03-15T15:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。