論文の概要: How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2311.07594v1
- Date: Fri, 10 Nov 2023 09:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 17:08:49.622849
- Title: How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model
- Title(参考訳): モダリティ間のギャップを埋める方法:マルチモーダル大言語モデルに関する総合的な調査
- Authors: Shezheng Song, Xiaopeng Li, Shasha Li
- Abstract要約: 本稿では,MLLM(Multimodal Large Language Models)について概説する。
MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。
適切なモダリティアライメント法を選択することは重要である。
- 参考スコア(独自算出の注目度): 8.46628771641702
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This review paper explores Multimodal Large Language Models (MLLMs), which
integrate Large Language Models (LLMs) like GPT-4 to handle multimodal data
such as text and vision. MLLMs demonstrate capabilities like generating image
narratives and answering image-based questions, bridging the gap towards
real-world human-computer interactions and hinting at a potential pathway to
artificial general intelligence. However, MLLMs still face challenges in
processing the semantic gap in multimodality, which may lead to erroneous
generation, posing potential risks to society. Choosing the appropriate
modality alignment method is crucial, as improper methods might require more
parameters with limited performance improvement. This paper aims to explore
modality alignment methods for LLMs and their existing capabilities.
Implementing modality alignment allows LLMs to address environmental issues and
enhance accessibility. The study surveys existing modal alignment methods in
MLLMs into four groups: (1) Multimodal Converters that change data into
something LLMs can understand; (2) Multimodal Perceivers to improve how LLMs
perceive different types of data; (3) Tools Assistance for changing data into
one common format, usually text; and (4) Data-Driven methods that teach LLMs to
understand specific types of data in a dataset. This field is still in a phase
of exploration and experimentation, and we will organize and update various
existing research methods for multimodal information alignment.
- Abstract(参考訳): 本稿では,GPT-4のような大規模言語モデル(LLM)を統合し,テキストやビジョンなどのマルチモーダルデータを処理するMLLMについて述べる。
MLLMは、イメージナラティブの生成や、イメージベースの質問への回答、現実の人間とコンピュータの相互作用へのギャップを埋めること、人工知能への潜在的な道筋を示唆する機能を示す。
しかし、MLLMは多様性のセマンティックギャップの処理において依然として課題に直面しており、これは誤生成を招き、社会に潜在的なリスクをもたらす可能性がある。
適切なモダリティアライメント方法を選択することは重要であり、不適切なメソッドは性能改善に制限のあるより多くのパラメータを必要とする可能性がある。
本稿では,LLMのモーダリティアライメント手法とその既存機能について検討する。
モダリティアライメントの実装により、llmは環境問題に対処し、アクセシビリティを高めることができる。
本研究は,MLLMの既存のモーダルアライメント手法を,(1) LLMが理解できるようなデータにデータを変換するマルチモーダルコンバータ,(2) LLMが異なるタイプのデータをどのように認識するかを改善するマルチモーダルパーシーバー,(3) データの1つの共通形式(通常テキスト)への変換を支援するツール,(4) LLMにデータセット内の特定のタイプのデータを理解するように教えるデータ駆動手法の4つのグループに分けた。
この分野はまだ調査と実験の段階にあり、マルチモーダル情報アライメントのための様々な既存の研究方法を整理し、更新する。
関連論文リスト
- Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.286323454512996]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。
本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。
HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文 参考訳(メタデータ) (2024-12-28T07:54:14Z) - Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。
近年,マシン・アンラーニング(MUL)分野の研究が活発化している。
主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文 参考訳(メタデータ) (2024-11-23T07:20:36Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [14.767055057048855]
データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)について紹介する。
EE-MLLMは、追加モジュールや学習可能なパラメータを導入することなく、データと計算効率の両方を達成する。
実験により,EE-MLLMのベンチマークにおける有効性を示した。
論文 参考訳(メタデータ) (2024-08-21T17:36:37Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。