Fugu-MT 論文翻訳(概要): GSVA: Generalized Segmentation via Multimodal Large Language Models

論文の概要: GSVA: Generalized Segmentation via Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2312.10103v1
Date: Fri, 15 Dec 2023 02:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 18:34:18.687281
Title: GSVA: Generalized Segmentation via Multimodal Large Language Models
Title（参考訳）: GSVA:マルチモーダル大言語モデルによる一般化セグメンテーション
Authors: Zhuofan Xia, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song, Gao Huang
Abstract要約: 一般化参照表現(GRES)問題に対処する汎用視覚アシスタント(GSVA)を提案する。 GSVAは[SEG]トークンを再利用し、セグメンテーションモデルを複数のマスク参照を同時にサポートするように促し、革新的にnullターゲットを明示的に拒否する[REJ]トークンを生成することを学習する。 GRES問題の解決におけるGSVAの有効性を検証する実験は、GRESベンチマークgRefCOCOデータセットに注目すべき拡張点と、新たな記録を設定している。
参考スコア（独自算出の注目度）: 76.89733635856918
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Generalized Referring Expression Segmentation (GRES) extends the scope of classic RES to referring to multiple objects in one expression or identifying the empty targets absent in the image. GRES poses challenges in modeling the complex spatial relationships of the instances in the image and identifying non-existing referents. Recently, Multimodal Large Language Models (MLLMs) have shown tremendous progress in these complicated vision-language tasks. Connecting Large Language Models (LLMs) and vision models, MLLMs are proficient in understanding contexts with visual inputs. Among them, LISA, as a representative, adopts a special [SEG] token to prompt a segmentation mask decoder, e.g., SAM, to enable MLLMs in the RES task. However, existing solutions to of GRES remain unsatisfactory since current segmentation MLLMs cannot properly handle the cases where users might reference multiple subjects in a singular prompt or provide descriptions incongruent with any image target. In this paper, we propose Generalized Segmentation Vision Assistant (GSVA) to address this gap. Specifically, GSVA reuses the [SEG] token to prompt the segmentation model towards supporting multiple mask references simultaneously and innovatively learns to generate a [REJ] token to reject the null targets explicitly. Experiments validate GSVA's efficacy in resolving the GRES issue, marking a notable enhancement and setting a new record on the GRES benchmark gRefCOCO dataset. GSVA also proves effective across various classic referring expression segmentation and comprehension tasks.
Abstract（参考訳）: Generalized Referring Expression Segmentation (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。 GRESは、画像内のインスタンスの複雑な空間的関係をモデル化し、既存の参照を識別する際の課題を提起する。近年,MLLM(Multimodal Large Language Models)は複雑な視覚言語タスクにおいて大きな進歩を見せている。 LLM(Large Language Models)とビジョンモデル(Vision Models)を結びつけると、MLLMは視覚入力による文脈理解に長けている。 LISAは、代表として、セグメンテーションマスクデコーダ(SAMなど)をプロンプトするために特別な[SEG]トークンを採用し、RESタスクでMLLMを有効にする。しかし、GRESの既存のソリューションは、現在のセグメンテーションMLLMでは、ユーザーが特定のプロンプトで複数の被験者を参照したり、任意の画像ターゲットと矛盾する説明をすることができるようなケースを適切に扱えないため、満足できないままである。本稿では,このギャップに対処する汎用セグメンテーションビジョンアシスタント(GSVA)を提案する。具体的には、gsvaは[seg]トークンを再利用して、セグメンテーションモデルに複数のマスク参照を同時にサポートするように促し、革新的に[rej]トークンを生成してヌルターゲットを明示的に拒否する。 GRES問題の解決におけるGSVAの有効性を検証する実験は、GRESベンチマークgRefCOCOデータセットに注目すべき拡張点と、新たな記録を設定している。 GSVAはまた、様々な古典的な参照表現のセグメンテーションや理解タスクで有効であることを示す。

関連論文リスト

ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文参考訳（メタデータ） (2025-10-23T17:58:26Z)
Understanding Generative Recommendation with Semantic IDs from a Model-scaling View [57.471604518714535]
Generative Recommendation (GR)は、リッチアイテムのセマンティクスと協調フィルタリング信号を統合する。一般的なアプローチの1つは、セマンティックID(SID)を使用して、自動回帰ユーザーインタラクションシーケンスモデリングのセットアップでアイテムを表現することである。 SIDをベースとしたGRは,モデルをスケールアップしながら大きなボトルネックを示す。我々は、大規模言語モデル(LLM)を直接レコメンデーションとして使用する別のGRパラダイムを再考する。
論文参考訳（メタデータ） (2025-09-29T21:24:17Z)
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文参考訳（メタデータ） (2025-06-18T17:59:49Z)
Refer to Anything with Vision-Language Prompts [43.00233077605867]
RAS(Refer to Any Mask Group)は、複雑なマルチモーダル相互作用と理解を伴うセグメンテーションモデルを強化する。我々は,従来の参照表現セグメンテーション(RES)および一般化参照表現セグメンテーション(GRES)タスクと同様に,新しいORESタスクにおけるRASの優れた性能を示す。
論文参考訳（メタデータ） (2025-06-05T17:59:51Z)
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。 Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文参考訳（メタデータ） (2025-03-16T12:48:17Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。 MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文参考訳（メタデータ） (2024-10-10T15:18:19Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model [19.861556031795725]
MGLMM(Multi-Granularity Large Multimodal Model)を導入する。 MGLMMはユーザ指示に従ってキャプション(SegCap)の粒度をシームレスに調整することができる。 8つ以上の下流タスクに対処し、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-20T11:13:31Z)
Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。本稿では,適応結合型モデル (MABP) を提案する。
論文参考訳（メタデータ） (2024-05-24T03:07:38Z)
UniRAG: Universal Retrieval Augmentation for Large Vision Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。 Retrieval Augmentation(RA)は、主に非一般的なエンティティの生成や理解を改善するという一般的な信念とは異なり、MSCOCOデータセットの共通エンティティによる評価結果は、プロプライエタリモデルとより小さなオープンソースモデルの両方が生成品質を著しく向上させることを示している。
論文参考訳（メタデータ） (2024-05-16T17:58:45Z)
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。 PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文参考訳（メタデータ） (2024-03-21T17:50:47Z)
LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文参考訳（メタデータ） (2023-08-01T17:50:17Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。