Fugu-MT 論文翻訳(概要): MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

論文の概要: MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

arxiv url: http://arxiv.org/abs/2406.17770v2
Date: Thu, 27 Jun 2024 02:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 12:59:10.962197
Title: MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
Title（参考訳）: MG-LLaVA:マルチグラニュラリティビジュアルインストラクションチューニングを目指して
Authors: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang,
Abstract要約: MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。 MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
参考スコア（独自算出の注目度）: 44.497776004372724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.
Abstract（参考訳）: MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。しかし、これらのモデルのほとんどは低解像度画像の処理に制約されており、詳細な視覚情報を必要とする知覚タスクの有効性を制限している。本研究では,低分解能,高分解能,オブジェクト中心の機能を備えた多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMであるMG-LLaVAを提案する。本稿では,さらに高解像度のビジュアルエンコーダを統合することで,細かな細部をキャプチャし,それをConv-Gate融合ネットワークを介してベースビジュアル特徴と融合させる手法を提案する。さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。 MG-LLaVAは、インストラクションチューニングを通じて、公開されているマルチモーダルデータのみに訓練されており、例外的な知覚能力を示している。我々はMG-LLaVAを3.8Bから34Bまでの多種多様な言語エンコーダでインスタンス化し、モデルの性能を総合的に評価する。複数のベンチマークにおいて、MG-LLaVAはパラメータサイズに匹敵する既存のMLLMよりも優れており、その顕著な有効性を示している。コードはhttps://github.com/PhoenixZ810/MG-LLaVAで入手できる。

関連論文リスト

Towards Understanding Best Practices for Quantization of Vision-Language Models [42.75375241956508]
大きな言語モデル(LLM)は、様々なタスクに対して印象的な結果をもたらす。これらのシステムのメモリとレイテンシの両方を減らすために、実践者は学習したパラメータを半精度で定量化する。本稿では,最先端のGPTQやAWQなど,さまざまな量子化手法をマルチモーダルパイプラインに適用する方法について検討する。
論文参考訳（メタデータ） (2026-01-21T18:59:51Z)
Vision-Centric Activation and Coordination for Multimodal Large Language Models [42.26911585599856]
マルチモーダルな大言語モデル(MLLM)は、視覚エンコーダからLLMへのイメージ機能を統合し、高度な理解能力を示す。しかし、メインストリームMLLMは、重要な視覚中心の情報を無視して、テキストトークンの次のトークン予測によってのみ監督される。本稿では,ビジョン中心のアクティベーションとコーディネーションによってMLLM表現を最適化するVaCoを紹介する。
論文参考訳（メタデータ） (2025-10-16T06:38:39Z)
IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。 MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文参考訳（メタデータ） (2025-10-16T02:48:05Z)
VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文参考訳（メタデータ） (2025-08-13T17:00:44Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding [39.68348330596116]
視覚変換器(ViTs)の深部・浅部機能を効率的に統合する,シンプルで効果的な多層機能フェーザであるモデル名を提案する。具体的には、クエリとしてセマンティックに整合した深い機能を活用して、浅い機能から欠落した詳細を動的に抽出する。 modelnameachieveは、ビジュアル表現とベンチマークのパフォーマンスを大幅に改善する。
論文参考訳（メタデータ） (2024-10-15T17:55:22Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文参考訳（メタデータ） (2024-08-13T08:26:32Z)
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文参考訳（メタデータ） (2024-07-23T06:02:30Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文参考訳（メタデータ） (2023-10-13T02:41:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。