論文の概要: SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2311.07575v1
- Date: Mon, 13 Nov 2023 18:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 12:59:30.303971
- Title: SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models
- Title(参考訳): SPHINX:マルチモーダル大言語モデルのためのウェイト,タスク,ビジュアル埋め込みの混合
- Authors: Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao,
Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi
Zhang, Xuming He, Hongsheng Li, Yu Qiao
- Abstract要約: モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
- 参考スコア(独自算出の注目度): 86.478087039015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SPHINX, a versatile multi-modal large language model (MLLM) with a
joint mixing of model weights, tuning tasks, and visual embeddings. First, for
stronger vision-language alignment, we unfreeze the large language model (LLM)
during pre-training, and introduce a weight mix strategy between LLMs trained
by real-world and synthetic data. By directly integrating the weights from two
domains, the mixed LLM can efficiently incorporate diverse semantics with
favorable robustness. Then, to enable multi-purpose capabilities, we mix a
variety of tasks for joint visual instruction tuning, and design task-specific
instructions to avoid inter-task conflict. In addition to the basic visual
question answering, we include more challenging tasks such as region-level
understanding, caption grounding, document layout detection, and human pose
estimation, contributing to mutual enhancement over different scenarios.
Additionally, we propose to extract comprehensive visual embeddings from
various network architectures, pre-training paradigms, and information
granularity, providing language models with more robust image representations.
Based on our proposed joint mixing, SPHINX exhibits superior multi-modal
understanding capabilities on a wide range of applications. On top of this, we
further propose an efficient strategy aiming to better capture fine-grained
appearances of high-resolution images. With a mixing of different scales and
high-resolution sub-images, SPHINX attains exceptional visual parsing and
reasoning performance on existing evaluation benchmarks. We hope our work may
cast a light on the exploration of joint mixing in future MLLM research. Code
is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.
- Abstract(参考訳): モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)であるSPHINXを提案する。
第一に、より強力な視覚言語アライメントのために、事前学習中に大きな言語モデル(LLM)を解凍し、実世界と合成データで訓練されたLLM間の重み混合戦略を導入する。
2つのドメインから重みを直接統合することで、混合llmはより堅牢性のある多様なセマンティクスを効率的に取り入れることができる。
そして、多目的機能を実現するために、タスク間の衝突を避けるために、共同視覚指導チューニングとタスク固有の命令設計のための様々なタスクを混合する。
基本的な視覚的質問の回答に加えて,領域レベルの理解,キャプションのグラウンド化,ドキュメントレイアウト検出,人間のポーズ推定といった課題も含み,さまざまなシナリオの相互拡張に寄与する。
さらに,様々なネットワークアーキテクチャ,事前学習パラダイム,情報粒度から包括的視覚埋め込みを抽出し,より堅牢な画像表現を備えた言語モデルを提案する。
提案したジョイントミキシングに基づいて、SPHINXは広範囲のアプリケーションにおいて優れたマルチモーダル理解能力を示す。
さらに,高分解能画像の微細な外観をよりよく捉えるための効率的な戦略を提案する。
異なるスケールと高解像度のサブイメージの混合により、SPHINXは既存の評価ベンチマークで例外的な視覚解析と推論性能が得られる。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
コードはhttps://github.com/Alpha-VLLM/LLaMA2-Accessoryで公開されている。
関連論文リスト
- PUMA: Empowering Unified MLLM with Multi-granular Visual Generation [62.747751204215916]
統一MLLMと多言語視覚生成を併用したPUMAを提案する。
PUMAはMLLMの入力と出力の両方としてマルチグラニュラ視覚特徴を統一する。
この研究は、様々な視覚的タスクの粒度要求に適応できる真に統一されたMLLMに向けた重要なステップである。
論文 参考訳(メタデータ) (2024-10-17T17:59:57Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。