論文の概要: CoPRS: Learning Positional Prior from Chain-of-Thought for Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2510.11173v1
- Date: Mon, 13 Oct 2025 09:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.28447
- Title: CoPRS: Learning Positional Prior from Chain-of-Thought for Reasoning Segmentation
- Title(参考訳): CoPRS: セグメンテーションの推論のためのチェーン・オブ・サートからの事前学習
- Authors: Zhenyu Lu, Liupeng Li, Jinpeng Wang, Yan Feng, Bin Chen, Ke Chen, Yaowei Wang,
- Abstract要約: CoPRSは、ヘアマップとしてインスタンス化された、微分可能で解釈可能な位置推定を通じて、セグメンテーションへの言語推論をブリッジする。
学習可能な集中トークンは、画像の特徴と推論テキストを集約して、この位置先を生成する。
- 参考スコア(独自算出の注目度): 51.25997439181537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing works on reasoning segmentation either connect hidden features from a language model directly to a mask decoder or represent positions in text, which limits interpretability and semantic detail. To solve this, we present CoPRS, a Multi-modal Chain-of-Thought (MCoT)-based positional perception model that bridges language reasoning to segmentation through a differentiable and interpretable positional prior instantiated as a heatmap. By making the reasoning process clear via MCoT and expressing it as a dense, differentiable heatmap, this interface enhances interpretability and diagnostic analysis and yields more concentrated evidence on the target. A learnable concentration token aggregates features of the image and reasoning text to generate this positional prior, which is decoded to precise masks through a lightweight decoder, providing a direct connection between reasoning and segmentation. Across the RefCOCO series and ReasonSeg, CoPRS matches or surpasses the best reported metrics on each standard split under comparable protocols, with performance at or above prior state of the art across both validation and test partitions. Extensive experiments reveal that the quality of the heatmap strongly influences the resulting mask quality, supporting a consistent association between the reasoning output and downstream mask generation. Collectively, these findings support the utility of this paradigm in bridging reasoning and segmentation and show advantages in concentration driven by reasoning and predicting masks more precisely. Code, checkpoints and logs are released at https://github.com/ZhenyuLU-Heliodore/CoPRS.git.
- Abstract(参考訳): 既存のセグメンテーションの推論作業は、言語モデルから隠れた機能をマスクデコーダに直接接続するか、テキスト中の位置を表現し、解釈可能性とセマンティックディテールを制限する。
そこで本研究では,マルチモーダル・チェーン・オブ・ソート(MCoT)に基づく位置認識モデルであるCoPRSを提案する。
MCoTを介して推論プロセスを明確化し、それを密度の高い微分可能な熱マップとして表現することにより、このインターフェースは解釈可能性と診断分析を強化し、ターゲットに対してより深い証拠を得る。
学習可能な集中トークンは、画像の特徴と推論テキストを集約して、この位置先を生成する。これは軽量デコーダを介して正確なマスクにデコードされ、推論とセグメンテーションの直接的な接続を提供する。
RefCOCOシリーズとReasonSeg全体において、CoPRSは、検証とテストのパーティションをまたいだ以前の最先端のパフォーマンスと同等のプロトコルの下で、各標準分割で報告された最高のメトリクスと一致または超えている。
熱マップの品質が結果のマスク品質に強く影響を与え、推論出力と下流マスク生成の一貫性を支えていることが明らかとなった。
これらの知見は総合的に, このパラダイムのブリッジ理論とセグメンテーションにおける有用性を支持し, より正確にマスクの推理と予測によって引き起こされる濃度の優位性を示す。
コード、チェックポイント、ログはhttps://github.com/ZhenyuLU-Heliodore/CoPRS.gitで公開されている。
関連論文リスト
- ResAgent: Entropy-based Prior Point Discovery and Visual Reasoning for Referring Expression Segmentation [21.87321809019825]
Referring Expression(RES)は、自由形式の言語表現によるターゲットのピクセルレベルの理解を可能にする、コアビジョン言語セグメンテーションタスクである。
textbfmodelは textbfEntropy-textbfBased Point textbfDiscovery (textbfEBD) と textbfVision-textbfBased textbfReasoning (textbfVBR) を統合する新しいRESフレームワークである。
model は coarse-to を実装します
論文 参考訳(メタデータ) (2026-01-23T01:56:04Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Masked Collaborative Contrast for Weakly Supervised Semantic
Segmentation [22.74105261883464]
Masked Collaborative Contrast (MCC) は、弱教師付きセマンティックセグメンテーションにおける意味領域を強調する。
MCCは暗黙のイメージモデリングと対照的な学習から着想を得て、セマンティック領域に向けてキーを誘導する新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2023-05-15T09:46:28Z) - Discriminative Co-Saliency and Background Mining Transformer for
Co-Salient Object Detection [111.04994415248736]
我々は差別的共存とバックグラウンドマイニング・トランスフォーマー・フレームワーク(DMT)を提案する。
我々は2種類の事前定義されたトークンを用いて、コントラスト誘起画素間相関モジュールとコサリエンストークン間相関モジュールを用いて、コサリエンシと背景情報をマイニングする。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-30T15:56:47Z) - SemHint-MD: Learning from Noisy Semantic Labels for Self-Supervised
Monocular Depth Estimation [19.229255297016635]
自己教師付き深度推定は、光度損失の勾配-局所性の問題により、局所的に最小限に抑えられる。
セマンティックセグメンテーションを活用して、ネットワークを局所的な最小限から切り離すための奥行きを高めるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T17:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。