論文の概要: InfMLLM: A Unified Framework for Visual-Language Tasks
- arxiv url: http://arxiv.org/abs/2311.06791v2
- Date: Wed, 6 Dec 2023 11:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 18:04:09.920793
- Title: InfMLLM: A Unified Framework for Visual-Language Tasks
- Title(参考訳): InfMLLM:ビジュアル言語タスクのための統一フレームワーク
- Authors: Qiang Zhou, Zhibin Wang, Wei Chu, Yinghui Xu, Hao Li, Yuan Qi
- Abstract要約: マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 44.29407348046122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have proven their remarkable versatility in
handling a comprehensive range of language-centric applications. To expand
LLMs' capabilities to a broader spectrum of modal inputs, multimodal large
language models (MLLMs) have attracted growing interest. This work delves into
enabling LLMs to tackle more vision-language-related tasks, particularly image
captioning, visual question answering (VQA,) and visual grounding. To this end,
we implemented a three-stage training scheme: starting with lightweight
alignment pretraining, then moderate-weight multitask hybrid training, and
finally, LLM fine-tuning to improve instruction following capability.
Throughout the training process, the requirements on GPU memory gradually
increase. To effectively manage the number of visual embeddings passed to the
LLM while preserving their positional information, we introduce a
straightforward visual adapter module dubbed pool-adapter. Our experiments
demonstrate that preserving the positional information of visual embeddings
through the pool-adapter is particularly beneficial for tasks like visual
grounding. We name our proposed approach InfMLLM and have evaluated it
extensively on various benchmark datasets. Our results demonstrate that InfMLLM
achieves either state-of-the-art (SOTA) performance or performance comparable
to recent MLLMs. The code and model will be made open-source at:
\url{https://github.com/mightyzau/InfMLLM}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、包括的な言語中心のアプリケーションを扱う上で、その顕著な汎用性を証明している。
LLMの機能をより広い範囲のモーダル入力に拡張するために、マルチモーダル大言語モデル(MLLM)が注目されている。
この作業は、llmがより視覚言語に関連したタスク、特に画像キャプション、視覚質問応答(vqa)、視覚の接地に取り組むことを可能にすることに役立ちます。
この目的のために,軽量アライメントプリトレーニングから中等級のマルチタスクハイブリッドトレーニング,最後にllm微調整による命令追従能力の向上という3段階のトレーニングスキームを実装した。
トレーニングプロセスを通じて、GPUメモリの要件は徐々に増加する。
位置情報を保存しながらLLMに渡される視覚的埋め込み数を効果的に管理するために,プールアダプタと呼ばれる単純な視覚的アダプターモジュールを導入する。
実験により,プール適応器を通して視覚埋め込みの位置情報を保存することは,視覚接地などのタスクに特に有益であることが示された。
我々は,提案手法をInfMLLMと命名し,様々なベンチマークデータセットで広く評価した。
以上の結果から,InfMLLMは最新のMLLMに匹敵する,最先端のSOTA(State-of-the-art)性能を達成できることが示された。
コードとモデルはオープンソースにされる。 \url{https://github.com/mightyzau/InfMLLM}。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [96.5230327196615]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - LLaFS: When Large-Language Models Meet Few-Shot Segmentation [35.256802691098365]
本稿では,LLaFSを提案する。LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。
LLLaFSは、LLMが獲得した膨大な事前知識を効果的なサプリメントとして利用し、LLMを使って画像を数ショットで分割する。
LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
論文 参考訳(メタデータ) (2023-11-28T16:31:27Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - mPLUG-Owl: Modularization Empowers Large Language Models with
Multimodality [55.698502221911944]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。