論文の概要: X-LLM: Bootstrapping Advanced Large Language Models by Treating
Multi-Modalities as Foreign Languages
- arxiv url: http://arxiv.org/abs/2305.04160v1
- Date: Sun, 7 May 2023 02:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 17:21:32.233768
- Title: X-LLM: Bootstrapping Advanced Large Language Models by Treating
Multi-Modalities as Foreign Languages
- Title(参考訳): X-LLM:マルチモーダルを外国語として扱うことで高度な大規模言語モデルをブートストラップする
- Authors: Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi,
Shuang Xu, Bo Xu
- Abstract要約: マルチモーダルをX2Lインタフェースで外国語に変換し、それらを大きな言語モデル(ChatGLM)に入力するX-LLMを提案する。
X-LLMは印象的なマルチモデルチャット能力を示し、時には見えない画像や命令に対するマルチモーダル GPT-4 の振る舞いを示す。
- 参考スコア(独自算出の注目度): 20.274614342856978
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable language abilities.
GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities
beyond previous visual language models. We attribute this to the use of more
advanced LLMs compared with previous multimodal models. Unfortunately, the
model architecture and training strategies of GPT-4 are unknown. To endow LLMs
with multimodal capabilities, we propose X-LLM, which converts Multi-modalities
(images, speech, videos) into foreign languages using X2L interfaces and inputs
them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple
frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X''
denotes multi-modalities such as image, speech, and videos, and ``L'' denotes
languages. X-LLM's training consists of three stages: (1) Converting Multimodal
Information: The first stage trains each X2L interface to align with its
respective single-modal encoder separately to convert multimodal information
into languages. (2) Aligning X2L representations with the LLM: single-modal
encoders are aligned with the LLM through X2L interfaces independently. (3)
Integrating multiple modalities: all single-modal encoders are aligned with the
LLM through X2L interfaces to integrate multimodal capabilities into the LLM.
Our experiments show that X-LLM demonstrates impressive multimodel chat
abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen
images/instructions, and yields a 84.5\% relative score compared with GPT-4 on
a synthetic multimodal instruction-following dataset. And we also conduct
quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote
the era of LLM-based speech recognition.
- Abstract(参考訳): 大規模言語モデル(LLM)は顕著な言語能力を示している。
GPT-4は先進的なLLMに基づいており、従来の視覚言語モデルを超える素晴らしいマルチモーダル機能を示している。
従来のマルチモーダルモデルと比較して,より高度なllmの使用が特徴である。
残念ながら、GPT-4のモデルアーキテクチャとトレーニング戦略は不明である。
マルチモーダル機能を持つLLMを実現するために,X-LLMを提案する。X2Lインタフェースを用いて,マルチモーダル(画像,音声,ビデオ)を外国語に変換し,大きな言語モデル(ChatGLM)に入力する。
具体的には、X-LLMは複数のフリーズシングルモーダルエンコーダと、X2Lインタフェースを用いたフリーズLDMを整列させ、そこで ``X'' は画像、音声、ビデオなどのマルチモーダル、 ``L'' は言語を表す。
X-LLMのトレーニングは以下の3つの段階から構成される: 1) マルチモーダル情報変換 1段目は各X2Lインタフェースを訓練し、それぞれのシングルモーダルエンコーダと個別に調整し、マルチモーダル情報を言語に変換する。
2) X2L の表現を LLM にアライメントする: 単一モードエンコーダは X2L インターフェースを介して独立して LLM にアライメントされる。
(3)マルチモーダル性の統合: すべてのシングルモーダルエンコーダは、マルチモーダル機能をLLMに統合するために、X2Lインタフェースを介してLLMと整列する。
実験の結果,X-LLM は印象的なマルチモデルチャット能力を示し,時には画像や命令に対するマルチモーダル GPT-4 の挙動を示し,合成マルチモーダル 命令追従データセットにおける GPT-4 と比較すると 84.5 % のスコアが得られた。
また,LLMによる音声認識の時代の進展を期待して,ALRとマルチモーダルASRのLLMを用いた定量的検査を行った。
関連論文リスト
- Push the Limit of Multi-modal Emotion Recognition by Prompting LLMs with Receptive-Field-Aware Attention Weighting [11.926100290196828]
本稿では,受動的フィールド認識重み付けによる大規模言語モデルの実現により,あるバニラモデルの性能を向上させるフレームワークであるLanternを提案する。
実験では、バニラモデルCORECTとSDTがGPT-4またはLlama-3.1-405Bでランタンに配備された。
論文 参考訳(メタデータ) (2024-11-26T18:35:24Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。