Fugu-MT 論文翻訳(概要): Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment

論文の概要: Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment

arxiv url: http://arxiv.org/abs/2406.02987v1
Date: Wed, 5 Jun 2024 06:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 19:39:21.362803
Title: Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment
Title（参考訳）: 視覚表現強化のためのマルチインスタンス・ビジュアル・プロンプト・ジェネレータによる多モード大言語モデルの強化
Authors: Wenliang Zhong, Wenyi Wu, Qi Li, Rob Barton, Boxin Du, Shioulin Sam, Karim Bouyarmane, Ismail Tutar, Junzhou Huang,
Abstract要約: まず、Q-formerのようなクエリベースのトランスフォーマーを用いたアダプタは、単純化されたマルチインスタンス学習法であることを示す。次に、リッチな視覚表現をLLMに組み込むために、MIVPG(Multi-instance Visual Prompt Generator)と呼ばれる汎用コンポーネントを提案する。
参考スコア（独自算出の注目度）: 39.84313997541156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have achieved SOTA performance in various visual language tasks by fusing the visual representations with LLMs leveraging some visual adapters. In this paper, we first establish that adapters using query-based Transformers such as Q-former is a simplified Multi-instance Learning method without considering instance heterogeneity/correlation. We then propose a general component termed Multi-instance Visual Prompt Generator (MIVPG) to incorporate enriched visual representations into LLMs by taking advantage of instance correlation between images or patches for the same sample. Quantatitive evaluation on three public vision-language (VL) datasets from different scenarios shows that the proposed MIVPG improves Q-former in main VL tasks.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて、視覚的表現をLLMと融合させることで、SOTAのパフォーマンスを達成している。本稿では,Q-formerのようなクエリベースのトランスフォーマーを用いたアダプタが,インスタンスの不均一性/相関を考慮せずに,簡易なマルチインスタンス学習手法であることを最初に確認する。次に、画像とパッチのインスタンス相関を利用して、リッチな視覚表現をLLMに組み込むMIVPG(Multi-instance Visual Prompt Generator)を提案する。異なるシナリオからの3つのパブリックビジョン言語(VL)データセットの定量評価は、提案したMIVPGがメインのVLタスクにおいてQ-formerを改善することを示す。

関連論文リスト

MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models [0.09895793818721334]
視覚言語モデル(MASSV)の投機的復号化のためのマルチモーダル適応と自己データ蒸留を導入する。 MASSVは、既存の小さな言語モデルを2段階のアプローチで効果的なマルチモーダルドラフトに変換する。 Qwen2.5-VL と Gemma3 モデルファミリでの実験では、MASSV が許容される長さを最大30%増加し、視覚的に接地されたタスクで最大 1.46 倍のエンドツーエンドの推論速度を提供することを示した。
論文参考訳（メタデータ） (2025-05-15T17:37:00Z)
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding [36.376220619032225]
REF-VLMは、様々な視覚的デコーディングタスクの統一的なトレーニングのためのエンドツーエンドフレームワークである。 1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットを構築した。 REF-VLMは様々な標準ベンチマークで他のMLLMよりも優れている。
論文参考訳（メタデータ） (2025-03-10T14:59:14Z)
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。 RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文参考訳（メタデータ） (2024-12-07T15:11:21Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。 APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文参考訳（メタデータ） (2023-12-04T01:42:09Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。