論文の概要: MM-LLMs: Recent Advances in MultiModal Large Language Models
- arxiv url: http://arxiv.org/abs/2401.13601v3
- Date: Sat, 17 Feb 2024 09:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:18:49.220417
- Title: MM-LLMs: Recent Advances in MultiModal Large Language Models
- Title(参考訳): MM-LLM:マルチモーダル大言語モデルの最近の進歩
- Authors: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu,
Dong Yu
- Abstract要約: 過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。
MM-LLMのさらなる研究を促進するための総合的な調査を行う。
本稿では,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。
- 参考スコア(独自算出の注目度): 51.52063849558428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past year, MultiModal Large Language Models (MM-LLMs) have undergone
substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or
outputs via cost-effective training strategies. The resulting models not only
preserve the inherent reasoning and decision-making capabilities of LLMs but
also empower a diverse range of MM tasks. In this paper, we provide a
comprehensive survey aimed at facilitating further research of MM-LLMs.
Initially, we outline general design formulations for model architecture and
training pipeline. Subsequently, we introduce a taxonomy encompassing $122$
MM-LLMs, each characterized by its specific formulations. Furthermore, we
review the performance of selected MM-LLMs on mainstream benchmarks and
summarize key training recipes to enhance the potency of MM-LLMs. Finally, we
explore promising directions for MM-LLMs while concurrently maintaining a
real-time tracking website for the latest developments in the field. We hope
that this survey contributes to the ongoing advancement of the MM-LLMs domain.
- Abstract(参考訳): 過去1年間で、MM-LLM(MultiModal Large Language Models)は大幅に進歩し、MM入力やアウトプットをコスト効率のよいトレーニング戦略を通じてサポートするために、既製のLLMを拡張した。
結果として得られたモデルは、LLMの固有の推論と意思決定能力を保持するだけでなく、多様なMMタスクも強化する。
本稿では,MM-LLMのさらなる研究を促進するための総合的な調査を行う。
まず、モデルアーキテクチャとトレーニングパイプラインの一般設計について概説する。
次に, MM-LLMを122ドル(約1万2000円)で提供する分類法を紹介した。
さらに,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための重要なトレーニングレシピを要約する。
最後に,MM-LLMの今後の方向性を検討するとともに,現場の最新開発のためのリアルタイム追跡Webサイトを同時に維持する。
この調査がMM-LLMsドメインの継続的な進歩に寄与することを願っている。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Multimodal Question Answering for Unified Information Extraction [15.798187192290746]
マルチモーダル情報抽出は、構造化されていないマルチメディアコンテンツから構造化された情報を抽出することを目的としている。
現在のMIEモデルはタスク固有でデータ集約である。
3つのMIEタスクを統合するための新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:05Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Multi-modal Machine Learning in Engineering Design: A Review and Future
Directions [9.213020570527451]
本稿では,マルチモーダル機械学習(MMML)の現状と課題について概観する。
本稿では,MMMLをエンジニアリング設計に適用する上での固有の課題を強調し,今後の研究の方向性を明らかにする。
次世代のインテリジェントデザインツールであるMMMLモデルは、製品の設計方法に影響を与える将来性を持っている。
論文 参考訳(メタデータ) (2023-02-14T01:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。