論文の概要: Show or Tell? A Benchmark To Evaluate Visual and Textual Prompts in Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.06280v1
- Date: Tue, 06 May 2025 20:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.735848
- Title: Show or Tell? A Benchmark To Evaluate Visual and Textual Prompts in Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションにおける視覚的・テキスト的プロンプトの評価のためのベンチマーク
- Authors: Gabriele Rosi, Fabio Cermelli,
- Abstract要約: セマンティックセグメンテーションのための視覚的プロンプトとテキスト的プロンプトの両方を評価するために特別に設計された新しいベンチマークを提案する。
5つのオープン語彙法と4つの視覚的参照プロンプトアプローチを評価し,後者を多クラスセグメンテーションに適応させる。
実験の結果,オープンボキャブラリ法はテキストで簡単に記述できるが,ツールのような複雑なドメインでは困難であることがわかった。
- 参考スコア(独自算出の注目度): 7.564378015102302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt engineering has shown remarkable success with large language models, yet its systematic exploration in computer vision remains limited. In semantic segmentation, both textual and visual prompts offer distinct advantages: textual prompts through open-vocabulary methods allow segmentation of arbitrary categories, while visual reference prompts provide intuitive reference examples. However, existing benchmarks evaluate these modalities in isolation, without direct comparison under identical conditions. We present Show or Tell (SoT), a novel benchmark specifically designed to evaluate both visual and textual prompts for semantic segmentation across 14 datasets spanning 7 diverse domains (common scenes, urban, food, waste, parts, tools, and land-cover). We evaluate 5 open-vocabulary methods and 4 visual reference prompt approaches, adapting the latter to handle multi-class segmentation through a confidence-based mask merging strategy. Our extensive experiments reveal that open-vocabulary methods excel with common concepts easily described by text but struggle with complex domains like tools, while visual reference prompt methods achieve good average results but exhibit high variability depending on the input prompt. Through comprehensive quantitative and qualitative analysis, we identify the strengths and weaknesses of both prompting modalities, providing valuable insights to guide future research in vision foundation models for segmentation tasks.
- Abstract(参考訳): プロンプトエンジニアリングは大きな言語モデルで顕著に成功したが、コンピュータビジョンにおける体系的な探索は依然として限られている。
意味的セグメンテーションでは、テキストプロンプトと視覚的プロンプトは異なる利点がある: オープンボキャブラリ法によるテキストプロンプトは任意のカテゴリのセグメンテーションを可能にし、ビジュアルリファレンスプロンプトは直感的な参照例を提供する。
しかし、既存のベンチマークでは、同じ条件下で直接比較することなく、これらのモダリティを分離して評価している。
Show or Tell(SoT)は、7つの異なる領域(一般的なシーン、都市、食品、廃棄物、部品、ツール、土地被覆)にまたがる14のデータセットにまたがるセマンティックセグメンテーションの視覚的およびテキスト的プロンプトを評価するために設計された新しいベンチマークである。
我々は5つのオープン語彙法と4つの視覚的参照プロンプトアプローチを評価し、信頼度に基づくマスクマージ戦略により、後者を多クラスセグメンテーションに適応させる。
広範に実験した結果,オープン語彙法はテキストで簡単に記述できるが,ツールのような複雑なドメインと競合し,ビジュアル参照プロンプト法は平均値に優れるが,入力プロンプトによっては高い可変性を示すことがわかった。
包括的量的および質的分析を通じて、両者の長所と短所を識別し、セグメンテーションタスクの視覚基盤モデルにおける将来の研究を導く貴重な洞察を提供する。
関連論文リスト
- Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation [22.057386630831402]
大規模ビジョンランゲージモデルでは、タスク固有のトレーニングを使わずに、プロンプトによって多様なタスクを解決するように指示することができる。
テキストまたは視覚的プロンプトによって導かれる最近のモデルのセグメンテーション性能を評価する。
本稿では,テキストと視覚的プロンプトを組み合わせたトレーニング不要のベースラインであるPromptMatcherを提案する。
論文 参考訳(メタデータ) (2025-03-25T13:36:59Z) - Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts [39.92376420375139]
視覚的プロンプトの解釈可能性を検討するために,最初のフレームワークであるInterpretable Visual Prompt Tuningを提案する。
視覚的プロンプトは、カテゴリーに依存しないプロトタイプのセットとして表される、人間の理解可能なセマンティックな概念と関連付けられている。
IVPTはこれらの領域の特徴を集約して解釈可能なプロンプトを生成する。
論文 参考訳(メタデータ) (2025-03-08T06:12:50Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。