Fugu-MT 論文翻訳(概要): LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

論文の概要: LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

arxiv url: http://arxiv.org/abs/2312.02949v1
Date: Tue, 5 Dec 2023 18:29:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 14:47:09.469203
Title: LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
Title（参考訳）: LLaVA-Grounding:大規模マルチモーダルモデルを用いた接地型ビジュアルチャット
Authors: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
Abstract要約: 大規模マルチモーダルモデル(LMM)のグラウンド化能力はますます認識されている。問題は、グラウンドド・ビジュアル・チャット(GVC)のためのデータセットがないことだ。私たちはグラウンドとチャット機能を組み合わせられるGVCデータを作成しました。我々のモデルは、RefCOCO/+/gやFlickr30K Entitiesのような古典的なグラウンドベンチマーク上での競合性能を実現している。
参考スコア（独自算出の注目度）: 105.7362622712606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the recent significant advancements in large multi-modal models (LMMs), the importance of their grounding capability in visual chat is increasingly recognized. Despite recent efforts to enable LMMs to support grounding, their capabilities for grounding and chat are usually separate, and their chat performance drops dramatically when asked to ground. The problem is the lack of a dataset for grounded visual chat (GVC). Existing grounding datasets only contain short captions. To address this issue, we have created GVC data that allows for the combination of grounding and chat capabilities. To better evaluate the GVC capabilities, we have introduced a benchmark called Grounding-Bench. Additionally, we have proposed a model design that can support GVC and various types of visual prompts by connecting segmentation models with language models. Experimental results demonstrate that our model outperforms other LMMs on Grounding-Bench. Furthermore, our model achieves competitive performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K Entities. Our code will be released at https://github.com/UX-Decoder/LLaVA-Grounding .
Abstract（参考訳）: 近年の大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚チャットにおける基盤機能の重要性がますます認識されている。 lmmが接地をサポートするための最近の取り組みにもかかわらず、接地とチャットの能力は通常別々であり、接地を求めるとチャットのパフォーマンスは劇的に低下する。問題は、gvc(grounded visual chat)用のデータセットがないことだ。既存のグラウンドデータセットは短いキャプションのみを含む。この問題に対処するため、私たちは、接地とチャット機能の組み合わせを可能にするgvcデータを作成しました。 GVCの性能をよりよく評価するために、Grounding-Benchというベンチマークを導入しました。さらに,セグメンテーションモデルと言語モデルとの接続により,GVCと様々な視覚的プロンプトをサポートするモデル設計を提案する。実験の結果,本モデルはグラウンド・ベンチにおける他のLMMよりも優れていた。さらに,我々のモデルは,RefCOCO/+/gやFlickr30K Entitiesといった古典的なグラウンドベンチマーク上での競合性能を実現している。私たちのコードはhttps://github.com/UX-Decoder/LLaVA-Groundingでリリースされます。

関連論文リスト

Context-Informed Grounding Supervision [102.11698329887226]
コンテキストインフォームド・グラウンド(Context-Informed Grounding Supervision, CINGS)は、モデルが応答に先立って関連するコンテキストでトレーニングされる訓練後の監督である。実験により, CINGSで訓練したモデルでは, テキスト領域と視覚領域の両方において, より強い基底が示されることがわかった。
論文参考訳（メタデータ） (2025-06-18T14:13:56Z)
SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models [0.0]
ファンデーションモデルは、自己教師付きアルゴリズムを通じて、大規模なラベル付けされていないデータセットで事前訓練されたディープラーニングモデルを指す。リモートセンシングのための様々な基礎モデルが開発されている。本研究では、マスク付きオートエンコーダとステートスペースモデルを組み合わせた新しい事前トレーニングフレームワークであるSatMambaを提案する。
論文参考訳（メタデータ） (2025-02-01T14:07:21Z)
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision [29.004844323516412]
現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。グラウンド化能力は、明示的なグラウンド化の監督なしに訓練されたLMMに現われることが判明した。拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
論文参考訳（メタデータ） (2024-10-10T17:59:55Z)
CoDi: Conversational Distillation for Grounded Question Answering [10.265241619616676]
我々はCoDiという新しいデータ蒸留フレームワークを導入する。 CoDiを使えば、大規模でアシスタントスタイルのデータセットを、さまざまな方法で合成することができます。我々は,CoDi合成データを用いてトレーニングしたSLMが,標準的な測定値において,人間の注釈付きデータに基づいてトレーニングしたモデルに匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-20T22:35:47Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文参考訳（メタデータ） (2023-11-06T18:59:57Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)
Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文参考訳（メタデータ） (2023-04-03T17:59:09Z)
Localizing Moments in Long Video Via Multimodal Guidance [51.72829274071017]
本研究では,非記述可能なウィンドウを識別し,抽出することにより,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。実験の結果,提案手法はMADが4.1%,Ego4Dが4.52%,最先端モデルが4.1%向上することがわかった。
論文参考訳（メタデータ） (2023-02-26T18:19:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。