論文の概要: OneLLM: One Framework to Align All Modalities with Language
- arxiv url: http://arxiv.org/abs/2312.03700v2
- Date: Thu, 09 Jan 2025 09:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:57:51.282847
- Title: OneLLM: One Framework to Align All Modalities with Language
- Title(参考訳): OneLLM:全てのモダリティを言語で調整するフレームワーク
- Authors: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue,
- Abstract要約: 統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
- 参考スコア(独自算出の注目度): 86.8818857465443
- License:
- Abstract: Multimodal large language models (MLLMs) have gained significant attention due to their strong multimodal understanding capability. However, existing works rely heavily on modality-specific encoders, which usually differ in architecture and are limited to common modalities. In this paper, we present OneLLM, an MLLM that aligns eight modalities to language using a unified framework. We achieve this through a unified multimodal encoder and a progressive multimodal alignment pipeline. In detail, we first train an image projection module to connect a vision encoder with LLM. Then, we build a universal projection module (UPM) by mixing multiple image projection modules and dynamic routing. Finally, we progressively align more modalities to LLM with the UPM. To fully leverage the potential of OneLLM in following instructions, we also curated a comprehensive multimodal instruction dataset, including 2M items from image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks, encompassing tasks such as multimodal captioning, question answering and reasoning, where it delivers excellent performance. Code, data, model and online demo are available at https://github.com/csuhan/OneLLM
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は,その強力なマルチモーダル理解能力によって注目されている。
しかしながら、既存の作品は、アーキテクチャでは通常異なり、共通のモダリティに限定されるモダリティ固有のエンコーダに大きく依存している。
本稿では,一貫したフレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
我々はこれを、統一マルチモーダルエンコーダとプログレッシブマルチモーダルアライメントパイプラインによって実現している。
詳しくは、まず画像投影モジュールを訓練し、視覚エンコーダとLLMを接続する。
次に、複数の画像投影モジュールと動的ルーティングを混合することにより、ユニバーサルプロジェクションモジュール(UPM)を構築する。
最後に, LLM と UPM とを漸進的に一致させる。
また, 画像, 音声, ビデオ, 点雲, 深度/正規マップ, IMU, fMRI脳活動から得られた2M項目を含む, 総合的なマルチモーダル・インストラクション・データセットについても検討した。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含み、優れたパフォーマンスを提供する。
コード、データ、モデル、オンラインデモはhttps://github.com/csuhan/OneLLMで公開されている。
関連論文リスト
- NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - X-LLM: Bootstrapping Advanced Large Language Models by Treating
Multi-Modalities as Foreign Languages [20.274614342856978]
マルチモーダルをX2Lインタフェースで外国語に変換し、それらを大きな言語モデル(ChatGLM)に入力するX-LLMを提案する。
X-LLMは印象的なマルチモデルチャット能力を示し、時には見えない画像や命令に対するマルチモーダル GPT-4 の振る舞いを示す。
論文 参考訳(メタデータ) (2023-05-07T02:25:42Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。