論文の概要: CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction
- arxiv url: http://arxiv.org/abs/2601.17420v1
- Date: Sat, 24 Jan 2026 11:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.72504
- Title: CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction
- Title(参考訳): CoT-Seg:Chain-of-Thought Reasoningとセルフコレクションによるセグメンテーションの再考
- Authors: Shiu-hong Kao, Chak Ho Huang, Huaiqian Liu, Yu-Wing Tai, Chi-Keung Tang,
- Abstract要約: 本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 50.67483317563736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing works of reasoning segmentation often fall short in complex cases, particularly when addressing complicated queries and out-of-domain images. Inspired by the chain-of-thought reasoning, where harder problems require longer thinking steps/time, this paper aims to explore a system that can think step-by-step, look up information if needed, generate results, self-evaluate its own results, and refine the results, in the same way humans approach harder questions. We introduce CoT-Seg, a training-free framework that rethinks reasoning segmentation by combining chain-of-thought reasoning with self-correction. Instead of fine-tuning, CoT-Seg leverages the inherent reasoning ability of pre-trained MLLMs (GPT-4o) to decompose queries into meta-instructions, extract fine-grained semantics from images, and identify target objects even under implicit or complex prompts. Moreover, CoT-Seg incorporates a self-correction stage: the model evaluates its own segmentation against the original query and reasoning trace, identifies mismatches, and iteratively refines the mask. This tight integration of reasoning and correction significantly improves reliability and robustness, especially in ambiguous or error-prone cases. Furthermore, our CoT-Seg framework allows easy incorporation of retrieval-augmented reasoning, enabling the system to access external knowledge when the input lacks sufficient information. To showcase CoT-Seg's ability to handle very challenging cases ,we introduce a new dataset ReasonSeg-Hard. Our results highlight that combining chain-of-thought reasoning, self-correction, offers a powerful paradigm for vision-language integration driven segmentation.
- Abstract(参考訳): 既存の推論セグメンテーションの作業は複雑なケース、特に複雑なクエリやドメイン外画像に対処する場合に不足することが多い。
そこで本論文は, より長い思考・時間を要するチェーン・オブ・シークレットの推論に触発され, ステップ・バイ・ステップで考え, 必要な情報を検索し, 結果を生成し, 結果を自己評価し, 結果を洗練するシステムを探究することを目的とする。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
微調整の代わりにCoT-Segは、事前訓練されたMLLM(GPT-4o)の固有の推論能力を活用して、クエリをメタ命令に分解し、画像からきめ細かなセマンティクスを抽出し、暗黙的または複雑なプロンプトの下でもターゲットオブジェクトを識別する。
さらに、CoT-Segには自己補正段階が組み込まれており、モデルは元のクエリと推論トレースに対して独自のセグメンテーションを評価し、ミスマッチを特定し、マスクを反復的に洗練する。
この推論と修正の緊密な統合は信頼性と堅牢性を著しく改善する。
さらに、我々のCoT-Segフレームワークは、検索強化推論を容易に組み込むことを可能にし、入力に十分な情報がない場合に外部知識にアクセスできるようにする。
CoT-Segの非常に困難なケースを扱う能力を示すために、新しいデータセットReasonSeg-Hardを紹介した。
我々の結果は、連鎖推論と自己補正を組み合わせることで、視覚言語統合駆動セグメンテーションの強力なパラダイムが提供されることを強調している。
関連論文リスト
- SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over Knowledge Graphs [28.59157823781425]
SEALは、自己進化型エージェント学習に基づく、2段階のセマンティックパーシングフレームワークである。
SEALは、特にマルチホップ推論、比較、集約タスクにおいて、最先端のパフォーマンスを達成する。
その結果, 構造精度と計算効率の両面で有意な向上が認められた。
論文 参考訳(メタデータ) (2025-12-04T14:52:30Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [19.354141845315276]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。