論文の概要: Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2409.13407v1
- Date: Fri, 20 Sep 2024 11:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:17:49.117817
- Title: Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model
- Title(参考訳): 大規模マルチモーダルモデルによる指導誘導多粒度セグメントとキャプション
- Authors: Li Zhou, Xu Yuan, Zenghui Sun, Zikun Zhou, Jingsong Lan,
- Abstract要約: MGLMM(Multi-Granularity Large Multimodal Model)を導入する。
MGLMMはユーザ指示に従ってキャプション(SegCap)の粒度をシームレスに調整することができる。
8つ以上の下流タスクに対処し、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 19.861556031795725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have achieved significant progress by extending large language models. Building on this progress, the latest developments in LMMs demonstrate the ability to generate dense pixel-wise segmentation through the integration of segmentation models.Despite the innovations, the textual responses and segmentation masks of existing works remain at the instance level, showing limited ability to perform fine-grained understanding and segmentation even provided with detailed textual cues.To overcome this limitation, we introduce a Multi-Granularity Large Multimodal Model (MGLMM), which is capable of seamlessly adjusting the granularity of Segmentation and Captioning (SegCap) following user instructions, from panoptic SegCap to fine-grained SegCap. We name such a new task Multi-Granularity Segmentation and Captioning (MGSC). Observing the lack of a benchmark for model training and evaluation over the MGSC task, we establish a benchmark with aligned masks and captions in multi-granularity using our customized automated annotation pipeline. This benchmark comprises 10K images and more than 30K image-question pairs. We will release our dataset along with the implementation of our automated dataset annotation pipeline for further research.Besides, we propose a novel unified SegCap data format to unify heterogeneous segmentation datasets; it effectively facilitates learning to associate object concepts with visual features during multi-task training. Extensive experiments demonstrate that our MGLMM excels at tackling more than eight downstream tasks and achieves state-of-the-art performance in MGSC, GCG, image captioning, referring segmentation, multiple and empty segmentation, and reasoning segmentation tasks. The great performance and versatility of MGLMM underscore its potential impact on advancing multimodal research.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、大規模言語モデルを拡張することで大きな進歩を遂げた。
この進歩を踏まえ、LMMの最新の開発は、セグメンテーションモデルの統合による高密度ピクセルワイドセグメンテーションを生成する能力を示しているが、既存の作品のテキスト応答とセグメンテーションマスクはインスタンスレベルに留まり、細部まで細部まで理解とセグメンテーションを行う能力に制限がある。この制限を克服するために、スグメンテーションとキャプション(SegCap)の粒度をユーザ指示に従ってシームレスに調整できるMGLMM(Multi-Granularity Large Multimodal Model)を導入する。
このようなタスクをMGSC(Multi-Granularity Segmentation and Captioning)と呼ぶ。
MGSCタスク上でのモデルトレーニングと評価のためのベンチマークが欠如しているのを見て、カスタマイズされた自動アノテーションパイプラインを使用して、複数の粒度のマスクとキャプションを並べたベンチマークを構築した。
このベンチマークは、10Kイメージと30Kイメージ検索ペアで構成されている。
我々は、さらなる研究のための自動データセットアノテーションパイプラインの実装とともにデータセットをリリースし、また、異種セグメンテーションデータセットを統一する新しいSegCapデータフォーマットを提案し、マルチタスクトレーニング中にオブジェクトの概念と視覚的特徴を効果的に関連付けることを支援します。
大規模な実験により,MGLMMは8つの下流タスクに精通し,MGSC,GCG,画像キャプション,セグメンテーションの参照,複数と空のセグメンテーションタスク,推論セグメンテーションタスクの最先端性能を実現していることがわかった。
MGLMMの優れた性能と汎用性は、マルチモーダル研究の進展にその潜在的影響を浮き彫りにした。
関連論文リスト
- PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。