論文の概要: GSVA: Generalized Segmentation via Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2312.10103v1
- Date: Fri, 15 Dec 2023 02:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:34:18.687281
- Title: GSVA: Generalized Segmentation via Multimodal Large Language Models
- Title(参考訳): GSVA:マルチモーダル大言語モデルによる一般化セグメンテーション
- Authors: Zhuofan Xia, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song, Gao
Huang
- Abstract要約: 一般化参照表現(GRES)問題に対処する汎用視覚アシスタント(GSVA)を提案する。
GSVAは[SEG]トークンを再利用し、セグメンテーションモデルを複数のマスク参照を同時にサポートするように促し、革新的にnullターゲットを明示的に拒否する[REJ]トークンを生成することを学習する。
GRES問題の解決におけるGSVAの有効性を検証する実験は、GRESベンチマークgRefCOCOデータセットに注目すべき拡張点と、新たな記録を設定している。
- 参考スコア(独自算出の注目度): 76.89733635856918
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generalized Referring Expression Segmentation (GRES) extends the scope of
classic RES to referring to multiple objects in one expression or identifying
the empty targets absent in the image. GRES poses challenges in modeling the
complex spatial relationships of the instances in the image and identifying
non-existing referents. Recently, Multimodal Large Language Models (MLLMs) have
shown tremendous progress in these complicated vision-language tasks.
Connecting Large Language Models (LLMs) and vision models, MLLMs are proficient
in understanding contexts with visual inputs. Among them, LISA, as a
representative, adopts a special [SEG] token to prompt a segmentation mask
decoder, e.g., SAM, to enable MLLMs in the RES task. However, existing
solutions to of GRES remain unsatisfactory since current segmentation MLLMs
cannot properly handle the cases where users might reference multiple subjects
in a singular prompt or provide descriptions incongruent with any image target.
In this paper, we propose Generalized Segmentation Vision Assistant (GSVA) to
address this gap. Specifically, GSVA reuses the [SEG] token to prompt the
segmentation model towards supporting multiple mask references simultaneously
and innovatively learns to generate a [REJ] token to reject the null targets
explicitly. Experiments validate GSVA's efficacy in resolving the GRES issue,
marking a notable enhancement and setting a new record on the GRES benchmark
gRefCOCO dataset. GSVA also proves effective across various classic referring
expression segmentation and comprehension tasks.
- Abstract(参考訳): Generalized Referring Expression Segmentation (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
GRESは、画像内のインスタンスの複雑な空間的関係をモデル化し、既存の参照を識別する際の課題を提起する。
近年,MLLM(Multimodal Large Language Models)は複雑な視覚言語タスクにおいて大きな進歩を見せている。
LLM(Large Language Models)とビジョンモデル(Vision Models)を結びつけると、MLLMは視覚入力による文脈理解に長けている。
LISAは、代表として、セグメンテーションマスクデコーダ(SAMなど)をプロンプトするために特別な[SEG]トークンを採用し、RESタスクでMLLMを有効にする。
しかし、GRESの既存のソリューションは、現在のセグメンテーションMLLMでは、ユーザーが特定のプロンプトで複数の被験者を参照したり、任意の画像ターゲットと矛盾する説明をすることができるようなケースを適切に扱えないため、満足できないままである。
本稿では,このギャップに対処する汎用セグメンテーションビジョンアシスタント(GSVA)を提案する。
具体的には、gsvaは[seg]トークンを再利用して、セグメンテーションモデルに複数のマスク参照を同時にサポートするように促し、革新的に[rej]トークンを生成してヌルターゲットを明示的に拒否する。
GRES問題の解決におけるGSVAの有効性を検証する実験は、GRESベンチマークgRefCOCOデータセットに注目すべき拡張点と、新たな記録を設定している。
GSVAはまた、様々な古典的な参照表現のセグメンテーションや理解タスクで有効であることを示す。
関連論文リスト
- PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces [92.52589788633856]
単一のアーキテクチャで4つの参照ベースのオブジェクトセグメンテーションタスクを統合するために、UniRef++を提案する。
統一された設計により、UniRef++は幅広いベンチマークで共同でトレーニングすることができ、実行時に柔軟に複数のタスクを完了させることができる。
提案する UniRef++ は RIS と RVOS の最先端性能を実現し,パラメータ共有ネットワークを用いて FSS と VOS の競合性能を実現する。
論文 参考訳(メタデータ) (2023-12-25T12:54:11Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring
Video Object Segmentation [16.83885487855187]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に整合させ、融合させるために、パラメータ効率のチューニング戦略を用いる。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。