Fugu-MT 論文翻訳(概要): A Survey on Multimodal Large Language Models

論文の概要: A Survey on Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2306.13549v2
Date: Mon, 1 Apr 2024 17:51:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 13:31:56.744100
Title: A Survey on Multimodal Large Language Models
Title（参考訳）: マルチモーダル大規模言語モデルに関する調査
Authors: Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen,
Abstract要約: GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
参考スコア（独自算出の注目度）: 71.63375558033364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Multimodal Large Language Model (MLLM) represented by GPT-4V has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as writing stories based on images and OCR-free math reasoning, are rare in traditional multimodal methods, suggesting a potential path to artificial general intelligence. To this end, both academia and industry have endeavored to develop MLLMs that can compete with or even better than GPT-4V, pushing the limit of research at a surprising speed. In this paper, we aim to trace and summarize the recent progress of MLLMs. First of all, we present the basic formulation of MLLM and delineate its related concepts, including architecture, training strategy and data, as well as evaluation. Then, we introduce research topics about how MLLMs can be extended to support more granularity, modalities, languages, and scenarios. We continue with multimodal hallucination and extended techniques, including Multimodal ICL (M-ICL), Multimodal CoT (M-CoT), and LLM-Aided Visual Reasoning (LAVR). To conclude the paper, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the latest papers is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
Abstract（参考訳）: 近年, GPT-4Vで表されるマルチモーダル言語モデル (MLLM) は, 強力な大規模言語モデル (LLM) を脳として用いて, マルチモーダルタスクを遂行する新たなホットスポットとなっている。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、従来のマルチモーダル手法ではまれであり、人工知能への潜在的な道のりを示唆している。この目的のために、学術と産業の双方は、GPT-4Vよりも競争力のあるMLLMを開発し、驚くべき速さで研究の限界を推し進めている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。まず,MLLMの基本的定式化を行い,アーキテクチャ,トレーニング戦略,データ,評価などの関連概念を概説する。次に,より粒度,モダリティ,言語,シナリオをサポートするためにMLLMをどのように拡張できるか,という研究トピックを紹介する。我々は,Multimodal ICL (M-ICL),Multimodal CoT (M-CoT),LLM-Aided Visual Reasoning (LAVR)など,マルチモーダル幻覚と拡張手法を継続する。本稿は,既存の課題について議論し,有望な研究方向性を指摘する。 MLLMの時代が始まったばかりであるという事実を踏まえて、私たちはこの調査を更新し続け、さらなる研究を促すことを期待します。最新の論文を収集するGitHubリンクはhttps://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsで公開されている。

関連論文リスト

Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey [40.20905051575087]
AI for Scienceでは、マルチモーダルな感情認識と推論が急速に成長するフロンティアとなっている。本論文は,マルチモーダル感情認識と推論によるMLLMの交点を包括的に調査する最初の試みである。
論文参考訳（メタデータ） (2025-09-29T06:13:14Z)
Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive Review [11.072266818800475]
MLLM(Multi-modal Large Language Models)はテキストリッチ画像理解(TIU)分野に新たな次元を導入している。ほぼすべてのTIU MLLMのタイムライン、アーキテクチャ、パイプラインについて概説する。次に、主要なベンチマークで選択したモデルの性能についてレビューする。
論文参考訳（メタデータ） (2025-02-23T14:24:51Z)
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。本調査は,LLMの最近の進歩を概観する。
論文参考訳（メタデータ） (2024-12-04T11:14:06Z)
Can Multimodal Large Language Model Think Analogically? [9.517193263050228]
MLLM(Multimodal Large Language Model)は、その創発的な機能のために最近、かなりの議論を巻き起こした。説明者としてのtextitMLLM と予測者としての textitMLLM の2つの側面を探索する。本稿では、MLLMの理解能力を利用して既存のモデルを拡張する統一的なプロンプトテンプレートと手法を提案する。
論文参考訳（メタデータ） (2024-11-02T16:59:49Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文参考訳（メタデータ） (2024-05-17T12:37:10Z)
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文参考訳（メタデータ） (2024-01-10T15:29:21Z)
A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文参考訳（メタデータ） (2023-07-12T20:01:52Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。