論文の概要: LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge
- arxiv url: http://arxiv.org/abs/2311.11860v2
- Date: Sun, 26 Nov 2023 10:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:22:32.250236
- Title: LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge
- Title(参考訳): LION : デュアルレベルビジュアル知識を用いたマルチモーダル大言語モデルの構築
- Authors: Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie
- Abstract要約: MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
- 参考スコア(独自算出の注目度): 58.82222646803248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have endowed LLMs with the ability
to perceive and understand multi-modal signals. However, most of the existing
MLLMs mainly adopt vision encoders pretrained on coarsely aligned image-text
pairs, leading to insufficient extraction and reasoning of visual knowledge. To
address this issue, we devise a dual-Level vIsual knOwledge eNhanced Multimodal
Large Language Model (LION), which empowers the MLLM by injecting visual
knowledge in two levels. 1) Progressive incorporation of fine-grained
spatial-aware visual knowledge. We design a vision aggregator cooperated with
region-level vision-language (VL) tasks to incorporate fine-grained
spatial-aware visual knowledge into the MLLM. To alleviate the conflict between
image-level and region-level VL tasks during incorporation, we devise a
dedicated stage-wise instruction-tuning strategy with mixture-of-adapters. This
progressive incorporation scheme contributes to the mutual promotion between
these two kinds of VL tasks. 2) Soft prompting of high-level semantic visual
evidence. We facilitate the MLLM with high-level semantic visual evidence by
leveraging diverse image tags. To mitigate the potential influence caused by
imperfect predicted tags, we propose a soft prompting method by embedding a
learnable token into the tailored text instruction. Comprehensive experiments
on several multi-modal benchmarks demonstrate the superiority of our model
(e.g., improvement of 5% accuracy on VSR and 3% CIDEr on TextCaps over
InstructBLIP, 5% accuracy on RefCOCOg over Kosmos-2).
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
しかし、既存のmllmの多くは、粗い画像テキストペアに事前学習された視覚エンコーダを主に採用しており、視覚知識の抽出と推論が不十分である。
この問題に対処するために,2段階の視覚的知識を注入することでMLLMを増強するデュアルレベルvIsual knOwledge eNhanced Multimodal Large Language Model (LION)を考案した。
1)細粒度空間認識視覚知識の進歩的導入
我々は,領域レベルの視覚言語(VL)タスクと連携した視覚アグリゲータを設計し,細粒度空間認識視覚知識をMLLMに組み込む。
組込み時の画像レベルと領域レベルのVLタスク間の衝突を軽減するため,適応の混合によるステージワイドな指導学習戦略を考案した。
このプログレッシブな組み込み方式は、これらの2種類のVLタスク間の相互促進に寄与する。
2)ハイレベルな視覚的証拠のソフトプロンプト。
多様な画像タグを活用することで,MLLMの高度な意味的視覚的エビデンスを実現する。
予測タグの不完全による潜在的な影響を軽減するため,学習可能なトークンをテキスト命令に組み込むことにより,ソフトプロンプト手法を提案する。
複数のマルチモーダルベンチマークに関する総合的な実験は、我々のモデルの優位性を示している(例:VSRでの5%精度の改善、InstructBLIP上のTextCapsでの3%CIDEr、Cosmos-2上のRefCOCOgでの5%精度)。
関連論文リスト
- SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Large Model Based Referring Camouflaged Object Detection [51.80619142347807]
Referring camouflaged object detection (Ref-COD)は、テキストまたはビジュアル参照にマッチした特定のcamouflaged objectを分割することを目的とした、最近提案された問題である。
我々のモチベーションは、最近のMLLM(Multimodal Large Language Models)のセマンティックインテリジェンスと本質的な知識をフル活用して、この複雑なタスクを人間的な方法で分解することである。
MLKGと呼ばれるRef-CODのための大規模モデルベースマルチレベル知識誘導型マルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T13:45:09Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。