論文の概要: Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts
- arxiv url: http://arxiv.org/abs/2503.07503v1
- Date: Mon, 10 Mar 2025 16:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:15.506344
- Title: Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts
- Title(参考訳): セグメンテーションの前に考える:高品質推論セグメンテーションとGPTチェイン
- Authors: Shiu-hong Kao, Yu-Wing Tai, Chi-Keung Tang,
- Abstract要約: ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
- 参考スコア(独自算出の注目度): 64.93416171745693
- License:
- Abstract: Reasoning segmentation is a challenging vision-language task that aims to output the segmentation mask with respect to a complex, implicit, and even non-visual query text. Previous works incorporated multimodal Large Language Models (MLLMs) with segmentation models to approach the difficult problem. However, their segmentation quality often falls short in complex cases, particularly when dealing with out-of-domain objects with intricate structures, blurry boundaries, occlusions, or high similarity with surroundings. In this paper, we introduce ThinkFirst, a training-free reasoning segmentation framework that leverages GPT's chain of thought to address these challenging cases. Our approach allows GPT-4o or other powerful MLLMs to generate a detailed, chain-of-thought description of an image. This summarized description is then passed to a language-instructed segmentation assistant to aid the segmentation process. Our framework allows users to easily interact with the segmentation agent using multimodal inputs, such as easy text and image scribbles, for successive refinement or communication. We evaluate the performance of ThinkFirst on diverse objects. Extensive experiments show that, this zero-shot-CoT approach significantly improves the vanilla reasoning segmentation agent, both qualitatively and quantitatively, while being less sensitive or critical to user-supplied prompts after Thinking First.
- Abstract(参考訳): 推論セグメンテーション(Reasoning segmentation)は、複雑な暗黙的かつ非視覚的なクエリテキストに対してセグメンテーションマスクを出力することを目的とした、難しい視覚言語タスクである。
従来の作業では, 分割モデルを用いたマルチモーダル大規模言語モデル (MLLM) が組み込まれていた。
しかし、そのセグメンテーションの品質は複雑な場合、特に複雑な構造、ぼやけた境界、閉塞、周囲と高い類似性を持つドメイン外オブジェクトを扱う場合、しばしば不足する。
本稿では,これらの課題に対処するために,GPTの思考連鎖を利用した学習自由推論セグメンテーションフレームワークであるThinkFirstを紹介する。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
本フレームワークでは,テキストや画像のスクリブルなどのマルチモーダル入力を用いて,連続的な精細化やコミュニケーションのためにセグメンテーションエージェントと容易に対話することができる。
多様なオブジェクトに対してThinkFirstの性能を評価する。
このゼロショットCoTアプローチは、定量的にも定量的にもバニラ推論のセグメンテーションを著しく改善する一方で、シンキングファースト以降のユーザに供給されるプロンプトに対して感度が低下し、クリティカルであることを示している。
関連論文リスト
- CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,画像間の共通部分と一意部分の識別と分割を目的とした,部分中心のセマンティック・セマンティック・セマンティック・セグメンテーションの新たな課題を紹介する。
画像間で複数のマスクを分割・推論できる最初のLVLMであるCALICOについて述べる。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - CoReS: Orchestrating the Dance of Reasoning and Segmentation [17.767049542947497]
セグメンテーションを推論する行為は、人間の視覚探索の認知段階を反映すべきである。
本稿では,Reasoning and Segmenting (CoReS) の連鎖を紹介する。
実験では、ReasonSegデータセットで最先端の手法を6.5%上回るCoReSの優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-08T16:55:39Z) - DeiSAM: Segment Anything with Deictic Prompting [26.38776252198988]
DeiSAMは、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせである。
オブジェクトを論理的に推論された画像領域にマッチングすることで、オブジェクトをセグメント化する。
実験の結果,DeiSAMは純粋にデータ駆動ベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-02-21T20:43:49Z) - SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation [87.18373801829314]
In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
論文 参考訳(メタデータ) (2023-11-24T18:59:42Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。