論文の概要: LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2312.02949v1
- Date: Tue, 5 Dec 2023 18:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:47:09.469203
- Title: LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
- Title(参考訳): LLaVA-Grounding:大規模マルチモーダルモデルを用いた接地型ビジュアルチャット
- Authors: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu,
Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
- Abstract要約: 大規模マルチモーダルモデル(LMM)のグラウンド化能力はますます認識されている。
問題は、グラウンドド・ビジュアル・チャット(GVC)のためのデータセットがないことだ。
私たちはグラウンドとチャット機能を組み合わせられるGVCデータを作成しました。
我々のモデルは、RefCOCO/+/gやFlickr30K Entitiesのような古典的なグラウンドベンチマーク上での競合性能を実現している。
- 参考スコア(独自算出の注目度): 105.7362622712606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent significant advancements in large multi-modal models (LMMs),
the importance of their grounding capability in visual chat is increasingly
recognized. Despite recent efforts to enable LMMs to support grounding, their
capabilities for grounding and chat are usually separate, and their chat
performance drops dramatically when asked to ground. The problem is the lack of
a dataset for grounded visual chat (GVC). Existing grounding datasets only
contain short captions. To address this issue, we have created GVC data that
allows for the combination of grounding and chat capabilities. To better
evaluate the GVC capabilities, we have introduced a benchmark called
Grounding-Bench. Additionally, we have proposed a model design that can support
GVC and various types of visual prompts by connecting segmentation models with
language models. Experimental results demonstrate that our model outperforms
other LMMs on Grounding-Bench. Furthermore, our model achieves competitive
performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K
Entities. Our code will be released at
https://github.com/UX-Decoder/LLaVA-Grounding .
- Abstract(参考訳): 近年の大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚チャットにおける基盤機能の重要性がますます認識されている。
lmmが接地をサポートするための最近の取り組みにもかかわらず、接地とチャットの能力は通常別々であり、接地を求めるとチャットのパフォーマンスは劇的に低下する。
問題は、gvc(grounded visual chat)用のデータセットがないことだ。
既存のグラウンドデータセットは短いキャプションのみを含む。
この問題に対処するため、私たちは、接地とチャット機能の組み合わせを可能にするgvcデータを作成しました。
GVCの性能をよりよく評価するために、Grounding-Benchというベンチマークを導入しました。
さらに,セグメンテーションモデルと言語モデルとの接続により,GVCと様々な視覚的プロンプトをサポートするモデル設計を提案する。
実験の結果,本モデルはグラウンド・ベンチにおける他のLMMよりも優れていた。
さらに,我々のモデルは,RefCOCO/+/gやFlickr30K Entitiesといった古典的なグラウンドベンチマーク上での競合性能を実現している。
私たちのコードはhttps://github.com/UX-Decoder/LLaVA-Groundingでリリースされます。
関連論文リスト
- GROUNDHOG: Grounding Large Language Models to Holistic Segmentation [22.347590874621865]
本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。
GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。
実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-26T18:59:33Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Input Reconstruction Attack against Vertical Federated Large Language
Models [1.1603243575080535]
大規模言語モデル(LLM)は、ChatGPTの出現により、学界や大衆から広く注目を集めている。
LLMは、様々なタスクのためのテキスト生成における驚くべき能力を示しているが、プライバシに関する懸念は、現実のビジネスでの使用を制限する。
本稿では,垂直連合学習(VFL)が,このような問題に対する有望な解決策であることを示す。
モデルの底部と上部に分割することで、ユーザの入力とモデルの知識の両方を保護し、それぞれがユーザとモデルプロバイダによって維持される。
論文 参考訳(メタデータ) (2023-11-07T09:39:22Z) - GLaMM: Pixel Grounding Large Multimodal Model [59.84473815326636]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - Localizing Moments in Long Video Via Multimodal Guidance [51.72829274071017]
本研究では,非記述可能なウィンドウを識別し,抽出することにより,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
実験の結果,提案手法はMADが4.1%,Ego4Dが4.52%,最先端モデルが4.1%向上することがわかった。
論文 参考訳(メタデータ) (2023-02-26T18:19:24Z) - VisualSem: A High-quality Knowledge Graph for Vision and Language [48.47370435793127]
高品質ナレッジグラフ(KG)であるVisualSemをリリースしました。
VisualSemには、多言語グルース、複数のイラスト画像、視覚的な関連性のあるノードが含まれている。
また、入力として画像や文を使用でき、KGのエンティティを検索できるニューラルマルチモーダル検索モデルをリリースする。
論文 参考訳(メタデータ) (2020-08-20T18:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。