Fugu-MT 論文翻訳(概要): Multimodal Large Language Models: A Survey

論文の概要: Multimodal Large Language Models: A Survey

arxiv url: http://arxiv.org/abs/2311.13165v1
Date: Wed, 22 Nov 2023 05:15:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 16:07:26.438640
Title: Multimodal Large Language Models: A Survey
Title（参考訳）: マルチモーダル大規模言語モデル:調査
Authors: Jiayang Wu, Wensheng Gan, Zefeng Chen, Shicheng Wan, Philip S. Yu
Abstract要約: マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
参考スコア（独自算出の注目度）: 36.06016060015404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The exploration of multimodal language models integrates multiple data types, such as images, text, language, audio, and other heterogeneity. While the latest large language models excel in text-based tasks, they often struggle to understand and process other data types. Multimodal models address this limitation by combining various modalities, enabling a more comprehensive understanding of diverse data. This paper begins by defining the concept of multimodal and examining the historical development of multimodal algorithms. Furthermore, we introduce a range of multimodal products, focusing on the efforts of major technology companies. A practical guide is provided, offering insights into the technical aspects of multimodal models. Moreover, we present a compilation of the latest algorithms and commonly used datasets, providing researchers with valuable resources for experimentation and evaluation. Lastly, we explore the applications of multimodal models and discuss the challenges associated with their development. By addressing these aspects, this paper aims to facilitate a deeper understanding of multimodal models and their potential in various domains.
Abstract（参考訳）: マルチモーダル言語モデルの探索は、画像、テキスト、言語、音声、その他の異種性などの複数のデータタイプを統合する。最新の大規模言語モデルはテキストベースのタスクに優れているが、他のタイプのデータを理解し処理するのに苦労することが多い。マルチモーダルモデルは様々なモダリティを組み合わせることでこの制限に対処し、多様なデータのより包括的な理解を可能にする。本稿では,マルチモーダルの概念を定義し,マルチモーダルアルゴリズムの歴史的展開を検討する。さらに,様々なマルチモーダル製品を紹介し,大手テクノロジー企業の取り組みに焦点をあてた。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。さらに、最新のアルゴリズムと一般的なデータセットのコンパイルを行い、研究者に実験と評価のための貴重なリソースを提供する。最後に,マルチモーダルモデルの応用について検討し,その開発に伴う課題について考察する。これらの側面に対処することで,マルチモーダルモデルとその様々な領域におけるポテンシャルの理解を深めることを目的とする。

関連論文リスト

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳（メタデータ） (2025-03-16T18:39:13Z)
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文参考訳（メタデータ） (2024-12-23T18:15:19Z)
Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文参考訳（メタデータ） (2024-11-14T08:22:42Z)
Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文参考訳（メタデータ） (2024-10-08T01:41:56Z)
Multi-modal Generative AI: Multi-modal LLMs, Diffusions and the Unification [41.88402339122694]
マルチモーダル生成AI(Artificial Intelligence)は、学術と産業の両方から注目を集めている。本稿では、マルチモーダルLLM、拡散、理解と生成のための統一を含む、多モーダル生成AIの概要について概観する。
論文参考訳（メタデータ） (2024-09-23T13:16:09Z)
HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文参考訳（メタデータ） (2024-07-03T18:00:48Z)
From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文参考訳（メタデータ） (2024-06-27T15:36:43Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文参考訳（メタデータ） (2023-02-01T11:48:34Z)
Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities [10.721189858694396]
マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
論文参考訳（メタデータ） (2022-10-30T21:46:01Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文参考訳（メタデータ） (2021-12-27T10:00:16Z)
Relating by Contrasting: A Data-efficient Framework for Multimodal Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文参考訳（メタデータ） (2020-07-02T15:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。