論文の概要: LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2312.02949v1
- Date: Tue, 5 Dec 2023 18:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:47:09.469203
- Title: LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
- Title(参考訳): LLaVA-Grounding:大規模マルチモーダルモデルを用いた接地型ビジュアルチャット
- Authors: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu,
Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
- Abstract要約: 大規模マルチモーダルモデル(LMM)のグラウンド化能力はますます認識されている。
問題は、グラウンドド・ビジュアル・チャット(GVC)のためのデータセットがないことだ。
私たちはグラウンドとチャット機能を組み合わせられるGVCデータを作成しました。
我々のモデルは、RefCOCO/+/gやFlickr30K Entitiesのような古典的なグラウンドベンチマーク上での競合性能を実現している。
- 参考スコア(独自算出の注目度): 105.7362622712606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent significant advancements in large multi-modal models (LMMs),
the importance of their grounding capability in visual chat is increasingly
recognized. Despite recent efforts to enable LMMs to support grounding, their
capabilities for grounding and chat are usually separate, and their chat
performance drops dramatically when asked to ground. The problem is the lack of
a dataset for grounded visual chat (GVC). Existing grounding datasets only
contain short captions. To address this issue, we have created GVC data that
allows for the combination of grounding and chat capabilities. To better
evaluate the GVC capabilities, we have introduced a benchmark called
Grounding-Bench. Additionally, we have proposed a model design that can support
GVC and various types of visual prompts by connecting segmentation models with
language models. Experimental results demonstrate that our model outperforms
other LMMs on Grounding-Bench. Furthermore, our model achieves competitive
performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K
Entities. Our code will be released at
https://github.com/UX-Decoder/LLaVA-Grounding .
- Abstract(参考訳): 近年の大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚チャットにおける基盤機能の重要性がますます認識されている。
lmmが接地をサポートするための最近の取り組みにもかかわらず、接地とチャットの能力は通常別々であり、接地を求めるとチャットのパフォーマンスは劇的に低下する。
問題は、gvc(grounded visual chat)用のデータセットがないことだ。
既存のグラウンドデータセットは短いキャプションのみを含む。
この問題に対処するため、私たちは、接地とチャット機能の組み合わせを可能にするgvcデータを作成しました。
GVCの性能をよりよく評価するために、Grounding-Benchというベンチマークを導入しました。
さらに,セグメンテーションモデルと言語モデルとの接続により,GVCと様々な視覚的プロンプトをサポートするモデル設計を提案する。
実験の結果,本モデルはグラウンド・ベンチにおける他のLMMよりも優れていた。
さらに,我々のモデルは,RefCOCO/+/gやFlickr30K Entitiesといった古典的なグラウンドベンチマーク上での競合性能を実現している。
私たちのコードはhttps://github.com/UX-Decoder/LLaVA-Groundingでリリースされます。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision [29.004844323516412]
現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。
グラウンド化能力は、明示的なグラウンド化の監督なしに訓練されたLMMに現われることが判明した。
拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:55Z) - CoDi: Conversational Distillation for Grounded Question Answering [10.265241619616676]
我々はCoDiという新しいデータ蒸留フレームワークを導入する。
CoDiを使えば、大規模でアシスタントスタイルのデータセットを、さまざまな方法で合成することができます。
我々は,CoDi合成データを用いてトレーニングしたSLMが,標準的な測定値において,人間の注釈付きデータに基づいてトレーニングしたモデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-20T22:35:47Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - Localizing Moments in Long Video Via Multimodal Guidance [51.72829274071017]
本研究では,非記述可能なウィンドウを識別し,抽出することにより,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
実験の結果,提案手法はMADが4.1%,Ego4Dが4.52%,最先端モデルが4.1%向上することがわかった。
論文 参考訳(メタデータ) (2023-02-26T18:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。