論文の概要: GLaMM: Pixel Grounding Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2311.03356v1
- Date: Mon, 6 Nov 2023 18:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:12:59.263197
- Title: GLaMM: Pixel Grounding Large Multimodal Model
- Title(参考訳): glamm: 大きなマルチモーダルモデルを持つピクセル
- Authors: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker,
Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang,
Fahad S. Khan
- Abstract要約: 対象分割マスクとシームレスに連動する自然言語応答を生成できる最初のモデルであるGrounding LMMを提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案課題は,大規模な自然シーンにおいて,密集した概念を具体化することである。
- 参考スコア(独自算出の注目度): 59.46744649539202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) extend Large Language Models to the vision
domain. Initial efforts towards LMMs used holistic images and text prompts to
generate ungrounded textual responses. Very recently, region-level LMMs have
been used to generate visually grounded responses. However, they are limited to
only referring a single object category at a time, require users to specify the
regions in inputs, or cannot offer dense pixel-wise object grounding. In this
work, we present Grounding LMM (GLaMM), the first model that can generate
natural language responses seamlessly intertwined with corresponding object
segmentation masks. GLaMM not only grounds objects appearing in the
conversations but is flexible enough to accept both textual and optional visual
prompts (region of interest) as input. This empowers users to interact with the
model at various levels of granularity, both in textual and visual domains. Due
to the lack of standard benchmarks for the novel setting of generating visually
grounded detailed conversations, we introduce a comprehensive evaluation
protocol with our curated grounded conversations. Our proposed Grounded
Conversation Generation (GCG) task requires densely grounded concepts in
natural scenes at a large-scale. To this end, we propose a densely annotated
Grounding-anything Dataset (GranD) using our proposed automated annotation
pipeline that encompasses 7.5M unique concepts grounded in a total of 810M
regions available with segmentation masks. Besides GCG, GLaMM also performs
effectively on several downstream tasks e.g., referring expression
segmentation, image and region-level captioning and vision-language
conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、大規模言語モデルを視覚領域に拡張する。
lmmに対する最初の取り組みは、全体像とテキストプロンプトを使用して、根拠のないテキスト応答を生成した。
最近では、視覚的に接地された応答を生成するために、地域レベルのLMMが使われている。
しかし、それらは一度に1つのオブジェクトカテゴリのみを参照すること、入力中の領域を指定すること、あるいは高密度のピクセル単位のオブジェクトグラウンドを提供することができないことに限定されている。
本研究では,対応するオブジェクト分割マスクとシームレスに連動する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMは会話に現れるオブジェクトを接地するだけでなく、テキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
これによりユーザは、テキストドメインとビジュアルドメインの両方において、さまざまなレベルの粒度でモデルと対話できるようになる。
視覚的に接地した詳細な会話を生成するための新しい設定のための標準ベンチマークが欠如していることから,我々は,接地会話を包括的に評価するプロトコルを提案する。
提案する接地会話生成(gcg)タスクは,大規模に自然場面における密接な接地概念を必要とする。
そこで本研究では,セグメンテーションマスク付きで利用可能な合計810万の領域を基盤とした7.5万のユニークな概念を含む自動アノテーションパイプラインを用いて,GranD(GranD)を提案する。
gcg以外にも、glammは、表現のセグメンテーション、画像および領域レベルのキャプション、視覚言語会話など、いくつかの下流タスクで効果的に実行する。
プロジェクトページ: https://mbzuai-oryx.github.io/groundingLMM。
関連論文リスト
- OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding [26.888343140449948]
ビジュアルグラウンドティングは、ユーザが提供するテキストクエリと、画像内のクエリ固有の領域を結びつける重要なツールである。
LLM-Opticは,Large Language Models (LLMs) を光学レンズとして利用し,既存の視覚的接地モデルを強化する革新的な手法である。
提案手法は,任意の言語入力によって指定された任意のオブジェクトを検出可能な,普遍的な視覚的接地を実現する。
論文 参考訳(メタデータ) (2024-05-27T12:23:08Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - GROUNDHOG: Grounding Large Language Models to Holistic Segmentation [22.347590874621865]
本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。
GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。
実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-26T18:59:33Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA [15.74007067413724]
STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。
質問応答には画像中のシーンテキストを読む必要がある。
論文 参考訳(メタデータ) (2023-04-04T07:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。