Fugu-MT 論文翻訳(概要): A Survey on Multimodal Large Language Models

論文の概要: A Survey on Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2306.13549v1
Date: Fri, 23 Jun 2023 15:21:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 12:30:05.751271
Title: A Survey on Multimodal Large Language Models
Title（参考訳）: マルチモーダル大規模言語モデルに関する調査
Authors: Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen
Abstract要約: マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
参考スコア（独自算出の注目度）: 56.754753799607585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Model (MLLM) recently has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as writing stories based on images and OCR-free math reasoning, are rare in traditional methods, suggesting a potential path to artificial general intelligence. In this paper, we aim to trace and summarize the recent progress of MLLM. First of all, we present the formulation of MLLM and delineate its related concepts. Then, we discuss the key techniques and applications, including Multimodal Instruction Tuning (M-IT), Multimodal In-Context Learning (M-ICL), Multimodal Chain of Thought (M-CoT), and LLM-Aided Visual Reasoning (LAVR). Finally, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the latest papers is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
Abstract（参考訳）: マルチモーダル言語モデル(MLLM)は近年,強力な大規模言語モデル(LLM)を脳として,マルチモーダルタスクを実行するためのホットスポットとして注目されている。 MLLMの驚くべき創発的な能力、例えば画像に基づく物語を書くことや、OCRのない数学推論は、伝統的な手法ではまれであり、人工知能への潜在的な道のりを示唆している。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。まず, mllm の定式化と関連する概念の明確化について述べる。次に、M-IT(Multimodal Instruction Tuning)、Multimodal In-Context Learning(M-ICL)、Multimodal Chain of Thought(M-CoT)、LLM-Aided Visual Reasoning(LAVR)といった重要な技術と応用について議論する。最後に,既存の課題を議論し,有望な研究の方向性を指摘する。 MLLMの時代が始まったばかりであるという事実を踏まえ、私たちはこの調査を更新し続け、さらなる研究を促すことを期待します。最新の論文を収集するGitHubリンクはhttps://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsにある。

関連論文リスト

Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey [40.20905051575087]
AI for Scienceでは、マルチモーダルな感情認識と推論が急速に成長するフロンティアとなっている。本論文は,マルチモーダル感情認識と推論によるMLLMの交点を包括的に調査する最初の試みである。
論文参考訳（メタデータ） (2025-09-29T06:13:14Z)
Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive Review [11.072266818800475]
MLLM(Multi-modal Large Language Models)はテキストリッチ画像理解(TIU)分野に新たな次元を導入している。ほぼすべてのTIU MLLMのタイムライン、アーキテクチャ、パイプラインについて概説する。次に、主要なベンチマークで選択したモデルの性能についてレビューする。
論文参考訳（メタデータ） (2025-02-23T14:24:51Z)
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。本調査は,LLMの最近の進歩を概観する。
論文参考訳（メタデータ） (2024-12-04T11:14:06Z)
Can Multimodal Large Language Model Think Analogically? [9.517193263050228]
MLLM(Multimodal Large Language Model)は、その創発的な機能のために最近、かなりの議論を巻き起こした。説明者としてのtextitMLLM と予測者としての textitMLLM の2つの側面を探索する。本稿では、MLLMの理解能力を利用して既存のモデルを拡張する統一的なプロンプトテンプレートと手法を提案する。
論文参考訳（メタデータ） (2024-11-02T16:59:49Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文参考訳（メタデータ） (2024-05-17T12:37:10Z)
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文参考訳（メタデータ） (2024-01-10T15:29:21Z)
A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文参考訳（メタデータ） (2023-07-12T20:01:52Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。