Fugu-MT 論文翻訳(概要): Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation

論文の概要: Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation

arxiv url: http://arxiv.org/abs/2505.17994v1
Date: Fri, 23 May 2025 14:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.174501
Title: Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation
Title（参考訳）: Segment Anyword: オープンセットグラウンドセグメンテーションのためのマスクプロンプトインバージョン
Authors: Zhihua Liu, Amrutha Saseendran, Lei Tong, Xilin He, Fariba Yousefi, Nikolay Burlutskiy, Dino Oglic, Tom Diethe, Philip Teare, Huiyu Zhou, Chen Jin,
Abstract要約: オープンセット言語基底セグメンテーションのための新しい学習自由な視覚概念学習手法を提案する。提案手法は有効であり、様々なオープンセットセグメンテーションタスクを一般化し、最先端の結果を得る。
参考スコア（独自算出の注目度）: 15.67584465842852
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-set image segmentation poses a significant challenge because existing methods often demand extensive training or fine-tuning and generally struggle to segment unified objects consistently across diverse text reference expressions. Motivated by this, we propose Segment Anyword, a novel training-free visual concept prompt learning approach for open-set language grounded segmentation that relies on token-level cross-attention maps from a frozen diffusion model to produce segmentation surrogates or mask prompts, which are then refined into targeted object masks. Initial prompts typically lack coherence and consistency as the complexity of the image-text increases, resulting in suboptimal mask fragments. To tackle this issue, we further introduce a novel linguistic-guided visual prompt regularization that binds and clusters visual prompts based on sentence dependency and syntactic structural information, enabling the extraction of robust, noise-tolerant mask prompts, and significant improvements in segmentation accuracy. The proposed approach is effective, generalizes across different open-set segmentation tasks, and achieves state-of-the-art results of 52.5 (+6.8 relative) mIoU on Pascal Context 59, 67.73 (+25.73 relative) cIoU on gRefCOCO, and 67.4 (+1.1 relative to fine-tuned methods) mIoU on GranDf, which is the most complex open-set grounded segmentation task in the field.
Abstract（参考訳）: オープンセットのイメージセグメンテーションは、既存の手法が広範囲のトレーニングや微調整を必要とすることが多く、一般的には、多様なテキスト参照表現に対して一貫した統一オブジェクトのセグメンテーションに苦慮しているため、大きな課題となる。そこで本研究では,凍結拡散モデルからトークンレベルのクロスアテンションマップを用いて,セグメンテーションサロゲートやマスクプロンプトを生成し,対象のマスクに洗練する,オープンセット言語基底セグメンテーションのための,新たな学習自由な視覚概念学習手法であるセグメンション・アニーワードを提案する。初期プロンプトは、画像テキストの複雑さが増すにつれてコヒーレンスと一貫性が欠如し、結果として準最適マスクフラグメントが生じる。この問題に対処するために,文依存や構文構造情報に基づいて視覚的プロンプトを結合・クラスタ化し,頑健で耐雑音性のあるマスクプロンプトを抽出し,セグメンテーション精度を大幅に向上する,新たな言語誘導型視覚的プロンプト正規化を導入する。提案手法は,様々なオープンセットセグメンテーションタスクを一般化し,Pascal Context 59 上の 52.5 (+6.8 相対) mIoU,gRefCOCO 上の 67.73 (+25.73 相対) cIoU,GranDf 上の 67.4 (+1.1 相対) mIoU の最先端結果を達成する。

関連論文リスト

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts [2.7218660375779513]
BiPrompt-SAMは、新しいデュアルモーダルプロンプトセグメンテーションフレームワークである。複雑なモデル修正なしに、空間的精度と意味的文脈を融合する。これはEndovis17の医療データセット上で強力なゼロショットパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-25T15:38:55Z)
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文参考訳（メタデータ） (2025-03-10T16:26:11Z)
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。 ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文参考訳（メタデータ） (2024-02-14T06:01:44Z)
Towards Generalizable Referring Image Segmentation via Target Prompt and Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文参考訳（メタデータ） (2023-12-01T09:31:24Z)
Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation [29.43462426812185]
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。マスクをベースとしたMask2Anomalyは,マスク分類アーキテクチャの統合の可能性を示した。総合的質的・質的評価により, Mask2Anomaly は新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2023-09-08T20:07:18Z)
Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文参考訳（メタデータ） (2023-04-13T17:59:40Z)
A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文参考訳（メタデータ） (2023-03-14T17:58:34Z)
Masked Supervised Learning for Semantic Segmentation [5.177947445379688]
Masked Supervised Learning (MaskSup)は、短いコンテキストと長距離コンテキストの両方をモデル化する効果的なシングルステージ学習パラダイムである。提案手法は計算効率が良く,平均交叉和(mIoU)において10%向上することを示す。
論文参考訳（メタデータ） (2022-10-03T13:30:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。