論文の概要: NOVO: Bridging LLaVA and SAM with Visual-only Prompts for Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2511.06651v1
- Date: Mon, 10 Nov 2025 02:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.045694
- Title: NOVO: Bridging LLaVA and SAM with Visual-only Prompts for Reasoning Segmentation
- Title(参考訳): NOVO: セグメンテーションを推論するための視覚のみのプロンプトによるLLaVAとSAMのブリッジ
- Authors: Kyung-Yoon Yoon, Yeong-Jun Cho,
- Abstract要約: RISegは視覚のみのプロンプトを通じて視覚言語モデル(VLM)とセグメンテーションモデルをブリッジするフレームワークである。
境界品質を高め, レベルセグメンテーションを可能にするため, トレーニングフリーリファインメントモジュールを導入する。
実験によると、RISegは複数のメトリクスとモデルサイズにわたる最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose NOVO (NO text, Visual-Only prompts), a novel framework that bridges vision-language models (VLMs) and segmentation models through visual-only prompts. Unlike prior approaches that feed text-derived SEG token embeddings into segmentation models, NOVO instead generates a coarse mask and point prompts from the VLM output. These visual prompts are compatible with the Segment Anything Model (SAM), preserving alignment with its pretrained capabilities. To further enhance boundary quality and enable instance-level segmentation, we introduce a training-free refinement module that reduces visual artifacts and improves the quality of segmentation masks. We also present RISeg, a new benchmark comprising 918 images, 2,533 instance-level masks, and diverse reasoning queries to evaluate this task. Experiments demonstrate that NOVO achieves state-of-the-art performance across multiple metrics and model sizes, demonstrating its effectiveness and scalability in reasoning segmentation.
- Abstract(参考訳): 本研究では,視覚のみのプロンプトを通じて視覚言語モデル(VLM)とセグメンテーションモデルをブリッジする新しいフレームワークであるNOVO(No text, Visual-Only prompts)を提案する。
テキスト由来のSEGトークンをセグメンテーションモデルに埋め込む以前のアプローチとは異なり、NOVOは粗いマスクとVLM出力からポイントプロンプトを生成する。
これらの視覚的プロンプトは、Segment Anything Model (SAM)と互換性があり、事前訓練された機能とアライメントを保持する。
境界品質をさらに高め,インスタンスレベルのセグメンテーションを可能にするために,視覚的アーティファクトを低減し,セグメンテーションマスクの品質を向上させるトレーニングフリーリファインメントモジュールを導入する。
918のイメージ、2,533のインスタンスレベルのマスクと、このタスクを評価するための多様な推論クエリからなる新しいベンチマークであるRISegも提示する。
実験では、NOVOが複数のメトリクスとモデルサイズにわたる最先端のパフォーマンスを実現し、セグメンテーションの有効性とスケーラビリティを実証している。
関連論文リスト
- Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。
テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。
インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文 参考訳(メタデータ) (2025-08-06T17:19:10Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Refer to Any Segmentation Mask Group With Vision-Language Prompts [79.43440775648824]
RAS(Refer to Any Mask Group)は、複雑なマルチモーダル相互作用と理解を伴うセグメンテーションモデルを強化する。
我々は,従来の参照表現セグメンテーション(RES)および一般化参照表現セグメンテーション(GRES)タスクと同様に,新しいORESタスクにおけるRASの優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-05T17:59:51Z) - Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation [22.057386630831402]
大規模ビジョンランゲージモデルでは、タスク固有のトレーニングを使わずに、プロンプトによって多様なタスクを解決するように指示することができる。
テキストまたは視覚的プロンプトによって導かれる最近のモデルのセグメンテーション性能を評価する。
本稿では,テキストと視覚的プロンプトを組み合わせたトレーニング不要のベースラインであるPromptMatcherを提案する。
論文 参考訳(メタデータ) (2025-03-25T13:36:59Z) - Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。