論文の概要: Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation
- arxiv url: http://arxiv.org/abs/2503.19647v1
- Date: Tue, 25 Mar 2025 13:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:47.456893
- Title: Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation
- Title(参考訳): Show or Tell? : 意味的セグメンテーションのための視覚言語モデルを効果的に促す
- Authors: Niccolo Avogaro, Thomas Frick, Mattia Rigotti, Andrea Bartezzaghi, Filip Janicki, Cristiano Malossi, Konrad Schindler, Roy Assaf,
- Abstract要約: 大規模ビジョンランゲージモデルでは、タスク固有のトレーニングを使わずに、プロンプトによって多様なタスクを解決するように指示することができる。
テキストまたは視覚的プロンプトによって導かれる最近のモデルのセグメンテーション性能を評価する。
本稿では,テキストと視覚的プロンプトを組み合わせたトレーニング不要のベースラインであるPromptMatcherを提案する。
- 参考スコア(独自算出の注目度): 22.057386630831402
- License:
- Abstract: Large Vision-Language Models (VLMs) are increasingly being regarded as foundation models that can be instructed to solve diverse tasks by prompting, without task-specific training. We examine the seemingly obvious question: how to effectively prompt VLMs for semantic segmentation. To that end, we systematically evaluate the segmentation performance of several recent models guided by either text or visual prompts on the out-of-distribution MESS dataset collection. We introduce a scalable prompting scheme, few-shot prompted semantic segmentation, inspired by open-vocabulary segmentation and few-shot learning. It turns out that VLMs lag far behind specialist models trained for a specific segmentation task, by about 30% on average on the Intersection-over-Union metric. Moreover, we find that text prompts and visual prompts are complementary: each one of the two modes fails on many examples that the other one can solve. Our analysis suggests that being able to anticipate the most effective prompt modality can lead to a 11% improvement in performance. Motivated by our findings, we propose PromptMatcher, a remarkably simple training-free baseline that combines both text and visual prompts, achieving state-of-the-art results outperforming the best text-prompted VLM by 2.5%, and the top visual-prompted VLM by 3.5% on few-shot prompted semantic segmentation.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(VLM)は、タスク固有のトレーニングを使わずに、様々なタスクを迅速に解決するよう指示できる基礎モデルとして、ますます見なされている。
セマンティックセグメンテーションのためにVLMを効果的に促す方法という、一見明らかな疑問について検討する。
そこで本研究では,MESSデータセット収集におけるテキストまたは視覚的プロンプトによって導かれる最近のモデルのセグメンテーション性能を系統的に評価した。
オープンボキャブラリセグメンテーションと少数ショット学習にインスパイアされた,スケーラブルなプロンプトスキーム,少数ショットによるセマンティックセグメンテーションを導入する。
その結果、VLMは特定のセグメンテーションタスクのために訓練された専門モデルよりもはるかに遅れており、Intersection-over-Unionメトリックの平均で約30%遅れていることがわかった。
さらに、テキストプロンプトと視覚的プロンプトは相補的であり、2つのモードのそれぞれが、他のモードが解決できる多くの例で失敗する。
我々の分析は、最も効果的な迅速なモーダリティを予測できることは、パフォーマンスを11%向上させる可能性があることを示唆している。
提案するPromptMatcherは,テキストと視覚的プロンプトを併用した極めて単純なトレーニング不要のベースラインで,最高のテキストプロンプトVLMを2.5%,トップビジュアルプロンプトVLMを3.5%向上させる。
関連論文リスト
- DRUM: Learning Demonstration Retriever for Large MUlti-modal Models [10.884258583493175]
大規模マンダーリヌル型アンダーラインモデル(DRUM)のための新しい枠組みであるアンダーラインエミュレーションアンダーラインレトリバーを提案する。
まず、埋め込みモデルが与えられると仮定して、視覚言語タスクの検索戦略について議論し、画像とテキストの埋め込みを結合して検索性能を向上させることを提案する。
第2に、LVLMのフィードバックを介して、埋め込みモデルにより検索されたデモを再度ランク付けし、トレーニングのためのリストワイドランキングの損失を計算することを提案する。
論文 参考訳(メタデータ) (2024-12-10T15:56:12Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Prompt Learning with Optimal Transport for Vision-Language Models [25.928455328563402]
複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。
内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
論文 参考訳(メタデータ) (2022-10-03T22:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。