論文の概要: Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration
- arxiv url: http://arxiv.org/abs/2306.09093v1
- Date: Thu, 15 Jun 2023 12:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 14:55:51.695889
- Title: Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration
- Title(参考訳): Macaw-LLM:画像、オーディオ、ビデオ、テキストの統合によるマルチモーダル言語モデリング
- Authors: Chenyang Lyu, Minghao Wu, Longyue Wang, Xinting Huang, Bingshuai Liu,
Zefeng Du, Shuming Shi, Zhaopeng Tu
- Abstract要約: 視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
- 参考スコア(独自算出の注目度): 50.94902442781148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although instruction-tuned large language models (LLMs) have exhibited
remarkable capabilities across various NLP tasks, their effectiveness on other
data modalities beyond text has not been fully studied. In this work, we
propose Macaw-LLM, a novel multi-modal LLM that seamlessly integrates visual,
audio, and textual information. Macaw-LLM consists of three main components: a
modality module for encoding multi-modal data, a cognitive module for
harnessing pretrained LLMs, and an alignment module for harmonizing diverse
representations. Our novel alignment module seamlessly bridges multi-modal
features to textual features, simplifying the adaptation process from the
modality modules to the cognitive module. In addition, we construct a
large-scale multi-modal instruction dataset in terms of multi-turn dialogue,
including 69K image instances and 50K video instances. We have made our data,
code and model publicly available, which we hope can pave the way for future
research in multi-modal LLMs and expand the capabilities of LLMs to handle
diverse data modalities and address complex real-world scenarios.
- Abstract(参考訳): 命令調整型大規模言語モデル(llm)は様々なnlpタスクにおいて顕著な性能を示したが、テキスト以外のデータモダリティに対する効果は十分に研究されていない。
本研究では,視覚,音声,テキスト情報をシームレスに統合するマルチモーダルLLMであるMacaw-LLMを提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々の新しいアライメントモジュールは、マルチモーダル特徴をテキスト特徴にシームレスにブリッジし、モダリティモジュールから認知モジュールへの適応プロセスを簡素化する。
さらに,69k画像インスタンスと50kビデオインスタンスを含むマルチターン対話の観点から,大規模マルチモーダル命令データセットを構築する。
我々は、データ、コード、モデルを公開し、マルチモーダル LLM における将来の研究の道を開き、多種多様なデータモダリティに対処し、複雑な実世界のシナリオに対処する LLM の機能を拡張することを望んでいます。
関連論文リスト
- Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model [33.072967177313025]
AnyMAL(AnyMAL, Any-Modality Augmented Language Model)は,多種多様な入力モダリティ信号に起因する統一モデルである。
AnyMALはLLaMA-2 (70B)を含む最先端LLMの強力なテキストベースの推論能力を継承する
我々は、人間と自動評価の両方からなる総合的な経験分析を行い、様々なマルチモーダルタスクにおける最先端の性能を実証する。
論文 参考訳(メタデータ) (2023-09-27T22:50:51Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。