Fugu-MT 論文翻訳(概要): From Efficient Multimodal Models to World Models: A Survey

論文の概要: From Efficient Multimodal Models to World Models: A Survey

arxiv url: http://arxiv.org/abs/2407.00118v1
Date: Thu, 27 Jun 2024 15:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 06:20:13.839613
Title: From Efficient Multimodal Models to World Models: A Survey
Title（参考訳）: 効率的なマルチモーダルモデルから世界モデルへ:サーベイ
Authors: Xinji Mai, Zeng Tao, Junxiong Lin, Haoran Wang, Yang Chang, Yanlan Kang, Yan Wang, Wenqiang Zhang,
Abstract要約: マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
参考スコア（独自算出の注目度）: 28.780451336834876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Models (MLMs) are becoming a significant research focus, combining powerful large language models with multimodal learning to perform complex tasks across different data modalities. This review explores the latest developments and challenges in MLMs, emphasizing their potential in achieving artificial general intelligence and as a pathway to world models. We provide an overview of key techniques such as Multimodal Chain of Thought (M-COT), Multimodal Instruction Tuning (M-IT), and Multimodal In-Context Learning (M-ICL). Additionally, we discuss both the fundamental and specific technologies of multimodal models, highlighting their applications, input/output modalities, and design characteristics. Despite significant advancements, the development of a unified multimodal model remains elusive. We discuss the integration of 3D generation and embodied intelligence to enhance world simulation capabilities and propose incorporating external rule systems for improved reasoning and decision-making. Finally, we outline future research directions to address these challenges and advance the field.
Abstract（参考訳）: マルチモーダル大規模モデル(MLM)は、強力な大規模言語モデルとマルチモーダル学習を組み合わせて、さまざまなデータモダリティにわたる複雑なタスクを実行することで、重要な研究対象となっている。本稿では,MLMの最近の発展と課題を概観し,人工知能の実現と世界モデルへの道筋として,その可能性を強調した。本稿では、M-COT(Multimodal Chain of Thought)、Multimodal Instruction Tuning(M-IT)、Multimodal In-Context Learning(M-ICL)といった重要な技術の概要を紹介する。さらに,マルチモーダルモデルの基本技術と特異技術の両方について論じ,それらの応用,入出力モダリティ,設計特性について述べる。大幅な進歩にもかかわらず、統一されたマルチモーダルモデルの開発はいまだ解明されていない。我々は,世界シミュレーション能力を高めるために3次元生成と具体的インテリジェンスの統合について議論し,推論と意思決定を改善するための外部ルールシステムの導入を提案する。最後に、これらの課題に対処し、分野を前進させるための今後の研究方針について概説する。

関連論文リスト

A Survey of Generative Categories and Techniques in Multimodal Large Language Models [3.7507324448128876]
MLLM(Multimodal Large Language Models)はテキスト生成を超えて急速に進化してきた。本調査では,6つの主要な生成モダリティを分類し,基礎技術がクロスモーダル機能を実現する方法について検討する。
論文参考訳（メタデータ） (2025-05-29T12:29:39Z)
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文参考訳（メタデータ） (2025-05-08T03:35:23Z)
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳（メタデータ） (2025-03-16T18:39:13Z)
A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications [7.414857515253022]
本稿では,ゲーティング機能,エキスパートネットワーク,ルーティング機構,トレーニング戦略,システム設計など,MoEの基本設計を紹介する。次に,継続学習,メタ学習,マルチタスク学習,強化学習など,機械学習の重要なパラダイムにおけるMoEのアルゴリズム設計について検討する。
論文参考訳（メタデータ） (2025-03-10T10:08:55Z)
Multi-modal Summarization in Model-Based Engineering: Automotive Software Development Case Study [3.6738896410816007]
多様なデータモダリティからの情報を統合するマルチモーダル要約は、様々なプロセスにおける情報理解を支援するための有望なソリューションである。マルチモーダル要約の応用と利点は、モデルベース工学(MBE)においてあまり注目を集めておらず、複雑なシステムの設計と開発において基盤となっている。
論文参考訳（メタデータ） (2025-03-06T14:53:37Z)
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文参考訳（メタデータ） (2025-02-22T20:55:26Z)
Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions [16.78870612041548]
近年, 複合現実環境における知覚, 認知, 行動のギャップを埋める可能性から, 身体的マルチモーダル大モデル (EMLM) が注目されている。本稿では,Large Language Models (LLM) やLarge Vision Models (LVM) などのモデルの開発について概説する。
論文参考訳（メタデータ） (2025-02-21T09:41:27Z)
Multi-modal Generative AI: Multi-modal LLMs, Diffusions and the Unification [41.88402339122694]
マルチモーダル生成AI(Artificial Intelligence)は、学術と産業の両方から注目を集めている。本稿では、マルチモーダルLLM、拡散、理解と生成のための統一を含む、多モーダル生成AIの概要について概観する。
論文参考訳（メタデータ） (2024-09-23T13:16:09Z)
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-09-09T17:44:00Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文参考訳（メタデータ） (2024-07-03T18:00:48Z)
Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities [5.22475289121031]
マルチモーダルモデルは、人工知能の今後の進歩にとって重要な要素であると期待されている。この研究は、新しいアーキテクチャと特定の分類学を訓練することで、一般のマルチモーダルモデルに対する新たな視点を提供する。
論文参考訳（メタデータ） (2024-06-08T15:30:46Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文参考訳（メタデータ） (2023-11-22T05:15:12Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。