論文の概要: CORA: Consistency-Guided Semi-Supervised Framework for Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2511.17755v1
- Date: Fri, 21 Nov 2025 20:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.403516
- Title: CORA: Consistency-Guided Semi-Supervised Framework for Reasoning Segmentation
- Title(参考訳): CORA: Consistency-Guided Semi-Supervised Framework for Reasoning Segmentation
- Authors: Prantik Howlader, Hoang Nguyen-Canh, Srijan Das, Jingyi Xu, Hieu Le, Dimitris Samaras,
- Abstract要約: 推論セグメンテーションは、複雑でしばしば暗黙的な指示によって参照されるターゲットに対して、ピクセル精度の高いマスクを求める。
我々は、限定ラベル付きデータとラベルなし画像の大きなコーパスから共同で学習する半教師付き推論セグメンテーションフレームワークCORAを提案する。
CORAは最先端の結果を達成し、都市景観理解のためのベンチマークデータセットであるCityscapesにラベル付きイメージを100個まで必要としています。
- 参考スコア(独自算出の注目度): 54.53371540755023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning segmentation seeks pixel-accurate masks for targets referenced by complex, often implicit instructions, requiring context-dependent reasoning over the scene. Recent multimodal language models have advanced instruction following segmentation, yet generalization remains limited. The key bottleneck is the high cost of curating diverse, high-quality pixel annotations paired with rich linguistic supervision leading to brittle performance under distribution shift. Therefore, we present CORA, a semi-supervised reasoning segmentation framework that jointly learns from limited labeled data and a large corpus of unlabeled images. CORA introduces three main components: 1) conditional visual instructions that encode spatial and contextual relationships between objects; 2) a noisy pseudo-label filter based on the consistency of Multimodal LLM's outputs across semantically equivalent queries; and 3) a token-level contrastive alignment between labeled and pseudo-labeled samples to enhance feature consistency. These components enable CORA to perform robust reasoning segmentation with minimal supervision, outperforming existing baselines under constrained annotation settings. CORA achieves state-of-the-art results, requiring as few as 100 labeled images on Cityscapes, a benchmark dataset for urban scene understanding, surpassing the baseline by $+2.3\%$. Similarly, CORA improves performance by $+2.4\%$ with only 180 labeled images on PanNuke, a histopathology dataset.
- Abstract(参考訳): 推論セグメンテーションは、複雑な暗黙の指示によって参照されるターゲットに対してピクセル精度の高いマスクを求め、シーン上でコンテキスト依存の推論を必要とする。
最近のマルチモーダル言語モデルはセグメンテーションの後に高度な命令を持つが、一般化は限られている。
鍵となるボトルネックは、多彩で高品質なアノテーションをリッチな言語指導と組み合わせることで、分散シフト時の不安定なパフォーマンスにつながる、という高いコストである。
そこで我々は,限定ラベル付きデータとラベルなし画像の大きなコーパスから共同で学習する半教師付き推論セグメンテーションフレームワークCORAを提案する。
CORAは3つの主要なコンポーネントを導入している。
1) 物体間の空間的・文脈的関係を符号化する条件付き視覚指示
2) 意味論的に等価なクエリにまたがるマルチモーダルLCMの出力の整合性に基づく雑音性擬似ラベルフィルタ
3) 特徴整合性を高めるため,ラベル付きサンプルと擬ラベル付きサンプルのトークンレベルのコントラストアライメント。
これらのコンポーネントにより、CORAは最小限の監督で堅牢な推論セグメンテーションを実行でき、制約付きアノテーション設定の下で既存のベースラインより優れている。
CORAは最先端の結果を達成し、都市景観理解のためのベンチマークデータセットであるCityscapesのラベル付きイメージを100枚まで必要としており、ベースラインを$2.3\%$で越えている。
同様に、CORAは、病理学的データセットであるPanNukeにラベル付きイメージが180しかなく、パフォーマンスを+2.4\%$で改善している。
関連論文リスト
- DBGroup: Dual-Branch Point Grouping for Weakly Supervised 3D Instance Segmentation [12.044632781901088]
弱教師付き3Dインスタンスセグメンテーションは3Dシーン理解に不可欠である。
既存のメソッドは2つの弱い監視形式に依存している: 1-thing-one-lickアノテーションとバウンディングボックスアノテーションである。
我々は,2段階の弱教師付き3Dインスタンスセグメンテーションフレームワークである textbfDBGroup を提案する。
論文 参考訳(メタデータ) (2025-11-13T06:12:13Z) - HVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment [16.926158907882012]
本稿では,変圧器を用いたセグメンテーションネットワークにおいて,ドメイン不変のテキスト埋め込みをオブジェクトクエリとして統合する統合型ビジョン・ランゲージフレームワークを提案する。
以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを橋渡しし,より詳細な一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-16T19:05:33Z) - Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文 参考訳(メタデータ) (2025-01-08T18:58:24Z) - From Few to More: Scribble-based Medical Image Segmentation via Masked Context Modeling and Continuous Pseudo Labels [46.949484720513674]
医用画像分割のための弱教師付きモデルMaCoを提案する。
我々は3つの公開データセット上でMaCoを評価し、他の弱い教師付き手法と比較した。
論文 参考訳(メタデータ) (2024-08-23T03:19:20Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z) - Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。
ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。
我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-06-18T18:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。