論文の概要: VITA: Towards Open-Source Interactive Omni Multimodal LLM
- arxiv url: http://arxiv.org/abs/2408.05211v1
- Date: Fri, 9 Aug 2024 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:05:23.662128
- Title: VITA: Towards Open-Source Interactive Omni Multimodal LLM
- Title(参考訳): VITA: Open-Source Interactive Omni Multimodal LLMを目指して
- Authors: Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun,
- Abstract要約: ビデオ, 画像, テキスト, 音声の同時処理と解析に適応した, MLLM (Multimodal Large Language Model) を初めて導入したVITAについて紹介する。
VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。
我々はMLLMにおける非覚醒相互作用と音声割り込みを利用する最初の人物である。
- 参考スコア(独自算出の注目度): 106.52426725618623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.
- Abstract(参考訳): GPT-4oの目覚ましいマルチモーダル機能とインタラクティブな体験は、実用的応用においてその必要性を浮き彫りにしているが、オープンソースモデルが両方の領域で優れていることは滅多にない。
本稿では,ビデオ,画像,テキスト,オーディオモダリティの同時処理と解析に有効な,世界初のオープンソースマルチモーダル大言語モデルであるVITAを紹介する。
言語基盤としてMixtral 8x7Bを出発点として、中国語の語彙を拡張し、バイリンガル・インストラクション・チューニングを行った。
さらに、マルチモーダルアライメントとインストラクションチューニングの2段階のマルチタスク学習を通じて、視覚的および音声機能を備えた言語モデルを提供する。
VITAは、多言語、視覚、および音声理解の堅牢な基礎的能力を示しており、その強力な性能は、単調なベンチマークとマルチモーダルなベンチマークの両方で証明されている。
基礎的能力の他に、我々は自然のマルチモーダルな人間とコンピュータのインタラクション体験を向上させるためにかなりの進歩を遂げた。
我々の知る限りでは、MLLMにおける非覚醒相互作用と音声割り込みを利用するのは初めてである。
VITAはオープンソースコミュニティにとって、マルチモーダル理解とインタラクションのシームレスな統合を探求する第一歩です。
VITAがオープンソースに近いものにするには、まだ多くの作業が必要ですが、パイオニアとしての役割が、その後の研究の基盤となることを願っています。
プロジェクトページ: https://vita-home.github.io
関連論文リスト
- Ocean-omni: To Understand the World with Omni-modality [28.306965534325904]
Ocean-omniは、最初のオープンソース 7B Multimodal Large Language Model (MLLM) である。
世界初のオープンソース7Bマルチモーダル大言語モデル(MLLM)であるOcean-omniを紹介する。
論文 参考訳(メタデータ) (2024-10-11T06:44:31Z) - Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。
最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。
ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文 参考訳(メタデータ) (2024-10-08T01:41:56Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration [74.31268379055201]
mPLUG-Owl2は多目的なマルチモーダル言語モデルである。
効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-11-07T14:21:29Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - ChatBridge: Bridging Modalities with Large Language Model as a Language
Catalyst [24.517389691825667]
ChatBridgeは、様々なモダリティ間のギャップを埋めるために、言語の表現能力を活用する、新しいマルチモーダル言語モデルである。
ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
論文 参考訳(メタデータ) (2023-05-25T14:34:08Z) - Large-scale Bilingual Language-Image Contrastive Learning [17.19890778916312]
我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。
我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。
実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文 参考訳(メタデータ) (2022-03-28T03:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。