論文の概要: Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks
- arxiv url: http://arxiv.org/abs/2402.08360v1
- Date: Tue, 13 Feb 2024 10:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:39:20.691982
- Title: Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks
- Title(参考訳): ビジュアル質問応答命令:マルチモーダル大言語モデルからドメイン固有のビジュアルマルチタスクへのアンロック
- Authors: Jusung Lee, Sungguk Cha, Younghyun Lee and Cheoljong Yang
- Abstract要約: VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having revolutionized natural language processing (NLP) applications, large
language models (LLMs) are expanding into the realm of multimodal inputs. Owing
to their ability to interpret images, multimodal LLMs (MLLMs) have been
primarily used for vision-language tasks. Currently, MLLMs have not yet been
extended for domain-specific visual tasks, which require a more explicit
understanding of visual information. We developed a method to transform
domain-specific visual and vision-language datasets into a unified question
answering format called Visual Question Answering Instruction (VQA-IN), thereby
extending MLLM to domain-specific tasks. The VQA-IN was applied to train
multiple MLLM architectures using smaller versions of LLMs (sLLMs). The
experimental results indicated that the proposed method achieved a high score
metric on domainspecific visual tasks while also maintaining its performance on
vision-language tasks in a multitask manner.
- Abstract(参考訳): 革命的自然言語処理(NLP)の応用により、大規模言語モデル(LLM)はマルチモーダル入力の領域に拡大している。
画像の解釈能力のため、マルチモーダルLLM(MLLM)は主に視覚言語タスクに使用されている。
現在、MLLMはドメイン固有の視覚タスクにはまだ拡張されておらず、視覚情報のより明確な理解を必要としている。
我々は,ドメイン固有の視覚および視覚のデータセットを視覚質問応答命令(VQA-IN)と呼ばれる統一された質問応答形式に変換し,MLLMをドメイン固有のタスクに拡張する手法を開発した。
VQA-INは、より小さなバージョンのLSM(sLLM)を使用して複数のMLLMアーキテクチャを訓練するために使用された。
実験結果から,提案手法は視覚タスクの高得点を達成しつつ,視覚言語タスクの性能をマルチタスク方式で維持することを示した。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Mysterious Projections: Multimodal LLMs Gain Domain-Specific Visual
Capabilities Without Richer Cross-Modal Projections [24.009736336285183]
マルチモーダル大言語モデル(MLLM)は、言語モーダルを伴う画像に関する汎用的な会話を可能にする。
市販のMLLMは皮膚科や農業などの領域の画像に制限があるため、ドメイン固有のアプリケーションをアンロックするためには微調整が必要である。
本研究は,MLLMアーキテクチャにおけるクロスモーダル射影の役割を再解釈する可能性を示唆する。
論文 参考訳(メタデータ) (2024-02-26T18:56:48Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs [34.211455081027964]
V*は、LLMの世界知識を利用して効率的なビジュアルクエリを行うビジュアルサーチ機構である。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
論文 参考訳(メタデータ) (2023-12-21T18:55:06Z) - VIM: Probing Multimodal Large Language Models for Visual Embedded
Instruction Following [109.02943724765959]
MLLM(Multimodal Large Language Models)の機能に追従する視覚的命令を評価するための新しいフレームワークであるVISUAL EMBEDEDED INSTRUCTION (VIM)を紹介した。
VIMは、命令を視覚シーンに埋め込むことでMLLMに挑戦し、指示に従うために強力な視覚的解釈スキルを要求する。
我々は、VQAv2、MME、MM-Vet、RefCOCOシリーズなどの様々なベンチマークにVIMを適用し、VIMベンチを作成し、Zero Shot、One Shot、Pair Shotという3つの異なるコンテキスト内学習環境にまたがる多様なMLLMを探索する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。