論文の概要: GROUNDHOG: Grounding Large Language Models to Holistic Segmentation
- arxiv url: http://arxiv.org/abs/2402.16846v1
- Date: Mon, 26 Feb 2024 18:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:21:14.116804
- Title: GROUNDHOG: Grounding Large Language Models to Holistic Segmentation
- Title(参考訳): GROUNDHOG: 大規模言語モデルからホロスティックセグメンテーションへ
- Authors: Yichi Zhang, Ziqiao Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi Gao,
Joyce Chai
- Abstract要約: 本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。
GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。
実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 23.67986085914003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most multimodal large language models (MLLMs) learn language-to-object
grounding through causal language modeling where grounded objects are captured
by bounding boxes as sequences of location tokens. This paradigm lacks
pixel-level representations that are important for fine-grained visual
understanding and diagnosis. In this work, we introduce GROUNDHOG, an MLLM
developed by grounding Large Language Models to holistic segmentation.
GROUNDHOG incorporates a masked feature extractor and converts extracted
features into visual entity tokens for the MLLM backbone, which then connects
groundable phrases to unified grounding masks by retrieving and merging the
entity masks. To train GROUNDHOG, we carefully curated M3G2, a grounded visual
instruction tuning dataset with Multi-Modal Multi-Grained Grounding, by
harvesting a collection of segmentation-grounded datasets with rich
annotations. Our experimental results show that GROUNDHOG achieves superior
performance on various language grounding tasks without task-specific
fine-tuning, and significantly reduces object hallucination. GROUNDHOG also
demonstrates better grounding towards complex forms of visual input and
provides easy-to-understand diagnosis in failure cases.
- Abstract(参考訳): ほとんどのマルチモーダル大規模言語モデル(MLLM)は、境界ボックスを位置トークンのシーケンスとして捉えた因果言語モデリングを通じて言語からオブジェクトへのグラウンドを学習する。
このパラダイムは、微細な視覚的理解と診断に重要なピクセルレベルの表現を欠いている。
本研究では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。
GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的エンティティトークンに変換する。
M3G2はマルチモーダル・マルチグラインド・グラウンディングを用いて,リッチアノテーションを用いたセグメンテーション・グラウンドド・データセットの収集により,グラウンドド・ビジュアル・インストラクション・チューニング・データセットである。
実験の結果,タスク固有の微調整を行わずに,様々な言語グラウンドタスクで優れた性能を達成でき,オブジェクト幻覚を著しく低減できることがわかった。
GROUNDHOGはまた、複雑な視覚入力へのより良い基盤を示し、障害ケースで容易に理解できる診断を提供する。
関連論文リスト
- Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models [62.36769498166312]
本稿では,マルチモーダル大規模言語モデル(MLLM)であるGromaを紹介する。
グロマは地域キャプションや視覚的接地といった地域レベルのタスクに適している。
ユーザ命令とモデル応答にリージョントークンを統合することで、Gromaがユーザ指定のリージョン入力をシームレスに理解できるようにする。
論文 参考訳(メタデータ) (2024-04-19T17:22:51Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-04T03:16:48Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - GLaMM: Pixel Grounding Large Multimodal Model [59.84473815326636]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。