Fugu-MT 論文翻訳(概要): GLaMM: Pixel Grounding Large Multimodal Model

論文の概要: GLaMM: Pixel Grounding Large Multimodal Model

arxiv url: http://arxiv.org/abs/2311.03356v3
Date: Sun, 2 Jun 2024 00:33:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 20:31:18.104942
Title: GLaMM: Pixel Grounding Large Multimodal Model
Title（参考訳）: GLaMM: 大規模マルチモーダルモデル
Authors: Hanoona Rasheed, Muhammad Maaz, Sahal Shaji Mullappilly, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan,
Abstract要約: 本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
参考スコア（独自算出の注目度）: 57.91763410032292
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Multimodal Models (LMMs) extend Large Language Models to the vision domain. Initial LMMs used holistic images and text prompts to generate ungrounded textual responses. Recently, region-level LMMs have been used to generate visually grounded responses. However, they are limited to only referring to a single object category at a time, require users to specify the regions, or cannot offer dense pixel-wise object grounding. In this work, we present Grounding LMM (GLaMM), the first model that can generate natural language responses seamlessly intertwined with corresponding object segmentation masks. GLaMM not only grounds objects appearing in the conversations but is flexible enough to accept both textual and optional visual prompts (region of interest) as input. This empowers users to interact with the model at various levels of granularity, both in textual and visual domains. Due to the lack of standard benchmarks for the novel setting of visually Grounded Conversation Generation (GCG), we introduce a comprehensive evaluation protocol with our curated grounded conversations. Our proposed GCG task requires densely grounded concepts in natural scenes at a large-scale. To this end, we propose a densely annotated Grounding-anything Dataset (GranD) using our proposed automated annotation pipeline that encompasses 7.5M unique concepts grounded in a total of 810M regions available with segmentation masks. Besides GCG, GLaMM also performs effectively on several downstream tasks, e.g., referring expression segmentation, image and region-level captioning and vision-language conversations.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、大規模言語モデルを視覚領域に拡張する。初期のLMMは、全体像とテキストプロンプトを使用して、根拠のないテキスト応答を生成する。近年,領域レベルのLMMは視覚的に接地された応答を生成するために用いられている。しかし、それらは一度に1つのオブジェクトカテゴリのみを参照すること、ユーザが領域を指定すること、あるいは高密度のピクセル単位のオブジェクトグラウンドを提供することができないことに限定されている。本研究では,対応するオブジェクト分割マスクとシームレスに連動する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMは会話に現れるオブジェクトを接地するだけでなく、テキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。これによりユーザは、テキストドメインとビジュアルドメインの両方において、さまざまなレベルの粒度でモデルと対話できるようになる。視覚的に接地された会話生成(GCG)の新たな設定のための標準ベンチマークが欠如しているため、我々は、得られた接地された会話を包括的に評価するプロトコルを導入する。提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。そこで本研究では,セグメンテーションマスク付きで利用可能な合計810万の領域を基盤とした7.5万のユニークな概念を含む自動アノテーションパイプラインを用いて,GranD(GranD)を提案する。 GCGに加えて、GLaMMは、表現のセグメンテーション、画像と地域レベルのキャプション、視覚言語による会話など、いくつかの下流タスクでも効果的に実行する。

関連論文リスト

Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2025-09-08T04:07:14Z)
Refer to Anything with Vision-Language Prompts [43.00233077605867]
RAS(Refer to Any Mask Group)は、複雑なマルチモーダル相互作用と理解を伴うセグメンテーションモデルを強化する。我々は,従来の参照表現セグメンテーション(RES)および一般化参照表現セグメンテーション(GRES)タスクと同様に,新しいORESタスクにおけるRASの優れた性能を示す。
論文参考訳（メタデータ） (2025-06-05T17:59:51Z)
SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。 SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文参考訳（メタデータ） (2025-04-13T16:36:47Z)
CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (2024-12-26T18:59:37Z)
OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。 MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文参考訳（メタデータ） (2024-10-10T15:18:19Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。単語と画素の対応が視覚的接地によって誘導されるという事実は、十分に訓練されたLMMの注意機構に本質的に存在するという事実に基づいている。表現セグメンテーションと単視的物語グラウンドベンチマークの競合性能を実現する。
論文参考訳（メタデータ） (2024-06-09T15:14:26Z)
LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding [26.888343140449948]
ビジュアルグラウンドティングは、ユーザが提供するテキストクエリと、画像内のクエリ固有の領域を結びつける重要なツールである。 LLM-Opticは,Large Language Models (LLMs) を光学レンズとして利用し,既存の視覚的接地モデルを強化する革新的な手法である。提案手法は,任意の言語入力によって指定された任意のオブジェクトを検出可能な,普遍的な視覚的接地を実現する。
論文参考訳（メタデータ） (2024-05-27T12:23:08Z)
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。 PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文参考訳（メタデータ） (2024-03-21T17:50:47Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation [22.347590874621865]
本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。 GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-26T18:59:33Z)
Aligning and Prompting Everything All at Once for Universal Visual Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。 APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。 160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文参考訳（メタデータ） (2023-12-04T18:59:50Z)
GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。 GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文参考訳（メタデータ） (2023-11-24T18:59:10Z)
Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA [15.74007067413724]
STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。質問応答には画像中のシーンテキストを読む必要がある。
論文参考訳（メタデータ） (2023-04-04T07:46:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。