論文の概要: PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
- arxiv url: http://arxiv.org/abs/2403.14598v1
- Date: Thu, 21 Mar 2024 17:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:10:20.567443
- Title: PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
- Title(参考訳): PSALM: 大規模マルチモーダルモデルによる画素分割
- Authors: Zheng Zhang, Yeyao Ma, Enming Zhang, Xiang Bai,
- Abstract要約: PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
- 参考スコア(独自算出の注目度): 49.80313655590392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PSALM is a powerful extension of the Large Multi-modal Model (LMM) to address the segmentation task challenges. To overcome the limitation of the LMM being limited to textual output, PSALM incorporates a mask decoder and a well-designed input schema to handle a variety of segmentation tasks. This schema includes images, task instructions, conditional prompts, and mask tokens, which enable the model to generate and classify segmentation masks effectively. The flexible design of PSALM supports joint training across multiple datasets and tasks, leading to improved performance and task generalization. PSALM achieves superior results on several benchmarks, such as RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptic Segmentation, and COCO-Interactive, and further exhibits zero-shot capabilities on unseen tasks, such as open-vocabulary segmentation, generalized referring expression segmentation and video object segmentation, making a significant step towards a GPT moment in computer vision. Through extensive experiments, PSALM demonstrates its potential to transform the domain of image segmentation, leveraging the robust visual understanding capabilities of LMMs as seen in natural language processing. Code and models are available at https://github.com/zamling/PSALM.
- Abstract(参考訳): PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
テキスト出力に制限されるLMMの制限を克服するため、PSALMはマスクデコーダとよく設計された入力スキーマを組み込んで、様々なセグメンテーションタスクを処理する。
このスキーマには、画像、タスク命令、条件付きプロンプト、マスクトークンが含まれており、モデルのセグメンテーションマスクを効果的に生成し分類することができる。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
PSALMは、RefCOCO/RefCOCO+/RefCOCOg、COCO-Interactiveといったいくつかのベンチマークにおいて優れた結果を出し、また、オープンボキャブラリセグメンテーション、一般化された参照式セグメンテーション、ビデオオブジェクトセグメンテーションなど、目に見えないタスクでゼロショット機能を示す。
広範な実験を通じて、PSALMは、自然言語処理で見られるようなLMMの堅牢な視覚的理解能力を活用して、画像セグメンテーションの領域を変換する可能性を示した。
コードとモデルはhttps://github.com/zamling/PSALM.comで入手できる。
関連論文リスト
- Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model [19.861556031795725]
MGLMM(Multi-Granularity Large Multimodal Model)を導入する。
MGLMMはユーザ指示に従ってキャプション(SegCap)の粒度をシームレスに調整することができる。
8つ以上の下流タスクに対処し、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-20T11:13:31Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - PixelLM: Pixel Reasoning with Large Multimodal Model [110.500792765109]
PixelLMはピクセルレベルの推論と理解のための効率的かつ効率的なLMMである。
コードブックトークンの隠された埋め込みからマスクを生成し、詳細なターゲット関連情報をエンコードする。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、複数のベンチマークで確立されたメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-04T03:05:59Z) - LLaFS: When Large Language Models Meet Few-Shot Segmentation [32.86287519276783]
LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。
LLaFSは、アノテーション付きサポート画像からの制限された情報とバイアスのある情報のみに依存する従来の数ショットセグメンテーション法とは対照的に、LLMを直接使用して数ショットで画像のセグメンテーションを行う。
LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
論文 参考訳(メタデータ) (2023-11-28T16:31:27Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。