Fugu-MT 論文翻訳(概要): Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning

論文の概要: Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning

arxiv url: http://arxiv.org/abs/2401.06805v2
Date: Thu, 18 Jan 2024 07:31:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 19:08:52.681468
Title: Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning
Title（参考訳）: マルチモーダル大規模言語モデル(MLLM)の推論能力を探る:マルチモーダル推論における新興動向に関する包括的調査
Authors: Yiqi Wang, Wentao Chen, Xiaotian Han, Xudong Lin, Haiteng Zhao, Yongfei Liu, Bohan Zhai, Jianbo Yuan, Quanzeng You, Hongxia Yang
Abstract要約: マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
参考スコア（独自算出の注目度）: 44.12214030785711
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Strong Artificial Intelligence (Strong AI) or Artificial General Intelligence (AGI) with abstract reasoning ability is the goal of next-generation AI. Recent advancements in Large Language Models (LLMs), along with the emerging field of Multimodal Large Language Models (MLLMs), have demonstrated impressive capabilities across a wide range of multimodal tasks and applications. Particularly, various MLLMs, each with distinct model architectures, training data, and training stages, have been evaluated across a broad range of MLLM benchmarks. These studies have, to varying degrees, revealed different aspects of the current capabilities of MLLMs. However, the reasoning abilities of MLLMs have not been systematically investigated. In this survey, we comprehensively review the existing evaluation protocols of multimodal reasoning, categorize and illustrate the frontiers of MLLMs, introduce recent trends in applications of MLLMs on reasoning-intensive tasks, and finally discuss current practices and future directions. We believe our survey establishes a solid base and sheds light on this important topic, multimodal reasoning.
Abstract（参考訳）: 抽象推論能力を備えた強力な人工知能(Strong AI)または人工知能(AGI)は、次世代AIの目標である。近年のLarge Language Models (LLM) の進歩と,MLLM (Multimodal Large Language Models) の出現する分野は,幅広いマルチモーダルタスクやアプリケーションにまたがる印象的な機能を示している。特に、異なるモデルアーキテクチャ、トレーニングデータ、トレーニングステージを持つ様々なMLLMが、幅広いMLLMベンチマークで評価されている。これらの研究により、MLLMの現在の能力の様々な側面が明らかになった。しかし,MLLMの推論能力は体系的に研究されていない。本稿では,マルチモーダル推論の既存の評価プロトコルを概観的にレビューし,MLLMのフロンティアを分類・説明し,推論集約タスクへのMLLMの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。われわれの調査はしっかりとした基盤を確立し、この重要なトピックであるマルチモーダル推論に光を当てていると信じています。

関連論文リスト

Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本調査は,RLに基づく多モーダル大言語モデルの推論の最近の進歩を体系的にレビューする。我々は、RLの2つの主要なパラダイム、--value-free と value-based method を強調し、RLが推論能力をどのように強化するかを分析する。ベンチマークデータセット、評価プロトコル、既存の制限について概観する。
論文参考訳（メタデータ） (2025-04-30T03:14:28Z)
Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。 Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文参考訳（メタデータ） (2024-11-23T02:17:10Z)
A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文参考訳（メタデータ） (2024-09-21T15:22:26Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文参考訳（メタデータ） (2024-05-17T12:37:10Z)
On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文参考訳（メタデータ） (2023-10-04T23:33:36Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。