論文の概要: Mysterious Projections: Multimodal LLMs Gain Domain-Specific Visual
Capabilities Without Richer Cross-Modal Projections
- arxiv url: http://arxiv.org/abs/2402.16832v1
- Date: Mon, 26 Feb 2024 18:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:33:02.682372
- Title: Mysterious Projections: Multimodal LLMs Gain Domain-Specific Visual
Capabilities Without Richer Cross-Modal Projections
- Title(参考訳): 謎の投影:マルチモーダルLCMは、よりリッチなクロスモーダル投影なしでドメイン特有の視覚能力を得る
- Authors: Gaurav Verma, Minje Choi, Kartik Sharma, Jamelle Watson-Daniels,
Sejoon Oh, Srijan Kumar
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、言語モーダルを伴う画像に関する汎用的な会話を可能にする。
市販のMLLMは皮膚科や農業などの領域の画像に制限があるため、ドメイン固有のアプリケーションをアンロックするためには微調整が必要である。
本研究は,MLLMアーキテクチャにおけるクロスモーダル射影の役割を再解釈する可能性を示唆する。
- 参考スコア(独自算出の注目度): 24.009736336285183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) like LLaVA and GPT-4(V) enable
general-purpose conversations about images with the language modality. As
off-the-shelf MLLMs may have limited capabilities on images from domains like
dermatology and agriculture, they must be fine-tuned to unlock domain-specific
applications. The prevalent architecture of current open-source MLLMs comprises
two major modules: an image-language (cross-modal) projection network and a
large language model. It is desirable to understand the roles of these two
modules in modeling domain-specific visual attributes to inform the design of
future models and streamline the interpretability efforts on the current
models. To this end, via experiments on 4 datasets and under 2 fine-tuning
settings, we find that as the MLLM is fine-tuned, it indeed gains
domain-specific visual capabilities, but the updates do not lead to the
projection extracting relevant domain-specific visual attributes. Our results
indicate that the domain-specific visual attributes are modeled by the LLM,
even when only the projection is fine-tuned. Through this study, we offer a
potential reinterpretation of the role of cross-modal projections in MLLM
architectures. Projection webpage:
https://claws-lab.github.io/projection-in-MLLMs/
- Abstract(参考訳): LLaVAやGPT-4(V)のようなマルチモーダルな大言語モデル(MLLM)は、言語モダリティを持つ画像に関する汎用的な会話を可能にする。
市販のMLLMは皮膚科や農業などの領域の画像に制限があるため、ドメイン固有のアプリケーションをアンロックするためには微調整が必要である。
現在のオープンソースMLLMのアーキテクチャは、イメージ言語(クロスモーダル)プロジェクションネットワークと大きな言語モデルという2つの主要なモジュールから構成されている。
これら2つのモジュールがドメイン固有の視覚特性をモデル化し、将来のモデルの設計を知らせ、現在のモデルにおける解釈可能性の取り組みを合理化する役割を理解することが望ましい。
この目的のために、4つのデータセットの実験と2つの微調整された設定により、MLLMは微調整されているため、実際にドメイン固有の視覚能力を得るが、更新は関連するドメイン固有の視覚属性をプロジェクション抽出することにつながることはない。
本結果は,投影のみを微調整した場合でも,ドメイン固有の視覚特性がLLMによってモデル化されていることを示す。
本研究では,MLLMアーキテクチャにおけるクロスモーダル射影の役割を再解釈する可能性について述べる。
プロジェクションwebページ: https://claws-lab.github.io/projection-in-mllms/
関連論文リスト
- BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of
LLMs [51.17542331993448]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis [45.62657605766754]
MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-31T14:21:49Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。