論文の概要: Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2404.13013v1
- Date: Fri, 19 Apr 2024 17:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:16:48.969447
- Title: Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
- Title(参考訳): Groma: マルチモーダル大規模言語モデルのための局所的な視覚的トークン化
- Authors: Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi,
- Abstract要約: 本稿では,マルチモーダル大規模言語モデル(MLLM)であるGromaを紹介する。
グロマは地域キャプションや視覚的接地といった地域レベルのタスクに適している。
ユーザ命令とモデル応答にリージョントークンを統合することで、Gromaがユーザ指定のリージョン入力をシームレスに理解できるようにする。
- 参考スコア(独自算出の注目度): 62.36769498166312
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Groma, a Multimodal Large Language Model (MLLM) with grounded and fine-grained visual perception ability. Beyond holistic image understanding, Groma is adept at region-level tasks such as region captioning and visual grounding. Such capabilities are built upon a localized visual tokenization mechanism, where an image input is decomposed into regions of interest and subsequently encoded into region tokens. By integrating region tokens into user instructions and model responses, we seamlessly enable Groma to understand user-specified region inputs and ground its textual output to images. Besides, to enhance the grounded chat ability of Groma, we curate a visually grounded instruction dataset by leveraging the powerful GPT-4V and visual prompting techniques. Compared with MLLMs that rely on the language model or external module for localization, Groma consistently demonstrates superior performances in standard referring and grounding benchmarks, highlighting the advantages of embedding localization into image tokenization. Project page: https://groma-mllm.github.io/.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(MLLM)であるGromaを紹介する。
全体像理解以外にも、Gromaは領域キャプションや視覚的接地といった領域レベルのタスクに長けている。
このような機能は、画像入力を興味のある領域に分解し、その後、領域トークンにエンコードする、ローカライズされた視覚トークン化機構上に構築されている。
ユーザ命令とモデル応答にリージョントークンを統合することで、Gromaがユーザ指定のリージョン入力を理解して、そのテキスト出力を画像に根拠付けることができる。
また,Gromaのグラウンドドチャット能力を高めるために,強力なGPT-4Vと視覚的プロンプト技術を活用して,視覚的グラウンドド・インストラクション・データセットをキュレートする。
ローカライズのための言語モデルや外部モジュールに依存するMLLMと比較して、Gromaは標準参照とグラウンド化ベンチマークにおいて優れたパフォーマンスを示し、ローカライズをイメージトークン化に埋め込むことの利点を強調している。
プロジェクトページ:https://groma-mllm.github.io/。
関連論文リスト
- ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - GROUNDHOG: Grounding Large Language Models to Holistic Segmentation [22.347590874621865]
本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。
GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。
実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-26T18:59:33Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Ferret: Refer and Ground Anything Anywhere at Any Granularity [93.80461625100826]
画像内の任意の形状や粒度の空間参照を理解することができる新しいマルチモーダル大言語モデル(MLLM)であるFeretを紹介する。
フェレットは、画像内の領域を表現するために、離散座標と連続的な特徴を結合した、新しく強力なハイブリッドな領域表現を採用している。
フェレットは、ポイント、バウンディングボックス、自由形式の形状など、多様な領域入力を受け入れることができる。
論文 参考訳(メタデータ) (2023-10-11T17:55:15Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - AttnGrounder: Talking to Cars with Attention [6.09170287691728]
視覚的接地作業のための一段階から一段階の訓練可能なモデルを提案する。
Visual Groundingは、与えられた自然言語のテキストクエリに基づいて、特定のオブジェクトをイメージにローカライズすることを目的としている。
我々はTalk2Carデータセット上でAttnGrounderを評価し,既存の手法よりも3.26%改善したことを示す。
論文 参考訳(メタデータ) (2020-09-11T23:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。