論文の概要: MM-LLMs: Recent Advances in MultiModal Large Language Models
- arxiv url: http://arxiv.org/abs/2401.13601v5
- Date: Tue, 28 May 2024 05:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 03:47:50.419213
- Title: MM-LLMs: Recent Advances in MultiModal Large Language Models
- Title(参考訳): MM-LLM:マルチモーダル大言語モデルの最近の進歩
- Authors: Duzhen Zhang, Yahan Yu, Jiahua Dong, Chenxing Li, Dan Su, Chenhui Chu, Dong Yu,
- Abstract要約: 過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。
126のMM-LLMを包含する分類法を導入し,その特異な定式化を特徴とする。
本稿では,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。
- 参考スコア(独自算出の注目度): 49.06046606933233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Initially, we outline general design formulations for model architecture and training pipeline. Subsequently, we introduce a taxonomy encompassing 126 MM-LLMs, each characterized by its specific formulations. Furthermore, we review the performance of selected MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Finally, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
- Abstract(参考訳): 過去1年間で、MM-LLM(MultiModal Large Language Models)は大幅に進歩し、MM入力やアウトプットをコスト効率のよいトレーニング戦略を通じてサポートするために、既製のLLMを拡張した。
結果として得られたモデルは、LLMの固有の推論と意思決定能力を保持するだけでなく、様々なMMタスクの強化にも寄与する。
本稿では,MM-LLMのさらなる研究を促進するための総合的な調査を行う。
まず、モデルアーキテクチャとトレーニングパイプラインのための一般的な設計の定式化について概説する。
その後,126個のMM-LLMを包含する分類法を導入し,それぞれにその特異な定式化を特徴とする。
さらに,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。
最後に,MM-LLMの今後の方向性を検討するとともに,現場の最新開発のためのリアルタイム追跡Webサイトを同時に維持する。
この調査がMM-LLMsドメインの継続的な進歩に寄与することを願っている。
関連論文リスト
- MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Multimodal Question Answering for Unified Information Extraction [15.798187192290746]
マルチモーダル情報抽出は、構造化されていないマルチメディアコンテンツから構造化された情報を抽出することを目的としている。
現在のMIEモデルはタスク固有でデータ集約である。
3つのMIEタスクを統合するための新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:05Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Multi-modal Machine Learning in Engineering Design: A Review and Future
Directions [9.213020570527451]
本稿では,マルチモーダル機械学習(MMML)の現状と課題について概観する。
本稿では,MMMLをエンジニアリング設計に適用する上での固有の課題を強調し,今後の研究の方向性を明らかにする。
次世代のインテリジェントデザインツールであるMMMLモデルは、製品の設計方法に影響を与える将来性を持っている。
論文 参考訳(メタデータ) (2023-02-14T01:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。