論文の概要: Refer to Anything with Vision-Language Prompts
- arxiv url: http://arxiv.org/abs/2506.05342v1
- Date: Thu, 05 Jun 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.905837
- Title: Refer to Anything with Vision-Language Prompts
- Title(参考訳): ビジョン・ランゲージ・プロンプトを参照のこと。
- Authors: Shengcao Cao, Zijun Wei, Jason Kuen, Kangning Liu, Lingzhi Zhang, Jiuxiang Gu, HyunJoon Jung, Liang-Yan Gui, Yu-Xiong Wang,
- Abstract要約: RAS(Refer to Any Mask Group)は、複雑なマルチモーダル相互作用と理解を伴うセグメンテーションモデルを強化する。
我々は,従来の参照表現セグメンテーション(RES)および一般化参照表現セグメンテーション(GRES)タスクと同様に,新しいORESタスクにおけるRASの優れた性能を示す。
- 参考スコア(独自算出の注目度): 43.00233077605867
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent image segmentation models have advanced to segment images into high-quality masks for visual entities, and yet they cannot provide comprehensive semantic understanding for complex queries based on both language and vision. This limitation reduces their effectiveness in applications that require user-friendly interactions driven by vision-language prompts. To bridge this gap, we introduce a novel task of omnimodal referring expression segmentation (ORES). In this task, a model produces a group of masks based on arbitrary prompts specified by text only or text plus reference visual entities. To address this new challenge, we propose a novel framework to "Refer to Any Segmentation Mask Group" (RAS), which augments segmentation models with complex multimodal interactions and comprehension via a mask-centric large multimodal model. For training and benchmarking ORES models, we create datasets MaskGroups-2M and MaskGroups-HQ to include diverse mask groups specified by text and reference entities. Through extensive evaluation, we demonstrate superior performance of RAS on our new ORES task, as well as classic referring expression segmentation (RES) and generalized referring expression segmentation (GRES) tasks. Project page: https://Ref2Any.github.io.
- Abstract(参考訳): 最近の画像セグメンテーションモデルは、画像を視覚的実体のための高品質なマスクに分割するために進歩しているが、言語と視覚の両方に基づいた複雑なクエリに対する包括的なセグメンテーションは提供できない。
この制限により、視覚言語によるプロンプトによって駆動されるユーザフレンドリなインタラクションを必要とするアプリケーションにおいて、その効果が低下する。
このギャップを埋めるために、ORES(Omnimodal Reference Expression segmentation)という新しいタスクを導入する。
このタスクでは、モデルがテキストのみまたはテキストと参照ビジュアルエンティティによって指定された任意のプロンプトに基づいてマスクのグループを生成する。
この課題に対処するため、マスク中心の大規模マルチモーダルモデルを用いて、複雑なマルチモーダル相互作用と理解を伴うセグメンテーションモデルを拡張する「RAS(Refer to Any Segmentation Mask Group)」という新しいフレームワークを提案する。
ORESモデルのトレーニングとベンチマークのために、テキストや参照エンティティによって指定された多様なマスクグループを含むデータセットMaskGroups-2MとMaskGroups-HQを作成します。
ORESタスクにおけるRASの優れた性能を示すとともに,古典的参照表現セグメンテーション(RES)タスクと一般化された参照表現セグメンテーション(GRES)タスクについて述べる。
プロジェクトページ: https://Ref2Any.github.io
関連論文リスト
- R2SM: Referring and Reasoning for Selective Masks [35.150696061791805]
選択マスク(R2SM)に対する参照と推論という新しいタスクを導入する。
このタスクは、ユーザ意図によって駆動されるマスクタイプの選択を組み込むことで、テキスト誘導セグメンテーションを拡張する。
本稿では,COCOA-cls,D2SA,MUVAのアノテーションを付加して構築したR2SMデータセットについて述べる。
論文 参考訳(メタデータ) (2025-06-02T15:36:31Z) - LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。