論文の概要: MIO: A Foundation Model on Multimodal Tokens
- arxiv url: http://arxiv.org/abs/2409.17692v1
- Date: Thu, 26 Sep 2024 09:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:46:02.581865
- Title: MIO: A Foundation Model on Multimodal Tokens
- Title(参考訳): MIO:マルチモーダルトークンの基礎モデル
- Authors: Zekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo
Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang
Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang
- Abstract要約: マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
- 参考スコア(独自算出の注目度): 76.18134509071272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce MIO, a novel foundation model built on multimodal
tokens, capable of understanding and generating speech, text, images, and
videos in an end-to-end, autoregressive manner. While the emergence of large
language models (LLMs) and multimodal large language models (MM-LLMs) propels
advancements in artificial general intelligence through their versatile
capabilities, they still lack true any-to-any understanding and generation.
Recently, the release of GPT-4o has showcased the remarkable potential of
any-to-any LLMs for complex real-world tasks, enabling omnidirectional input
and output across images, speech, and text. However, it is closed-source and
does not support the generation of multimodal interleaved sequences. To address
this gap, we present MIO, which is trained on a mixture of discrete tokens
across four modalities using causal multimodal modeling. MIO undergoes a
four-stage training process: (1) alignment pre-training, (2) interleaved
pre-training, (3) speech-enhanced pre-training, and (4) comprehensive
supervised fine-tuning on diverse textual, visual, and speech tasks. Our
experimental results indicate that MIO exhibits competitive, and in some cases
superior, performance compared to previous dual-modal baselines, any-to-any
model baselines, and even modality-specific baselines. Moreover, MIO
demonstrates advanced capabilities inherent to its any-to-any feature, such as
interleaved video-text generation, chain-of-visual-thought reasoning, visual
guideline generation, instructional image editing, etc.
- Abstract(参考訳): 本稿では,マルチモーダルトークン上に構築された新しい基礎モデルであるMIOを紹介し,音声,テキスト,画像,動画をエンドツーエンドで自動回帰的に理解し,生成する。
大規模言語モデル(LLM)とマルチモーダル・大規模言語モデル(MM-LLM)の出現は、汎用能力を通じて人工知能の進歩を促進するが、それでも真にあらゆる理解と生成を欠いている。
近年,GPT-4o のリリースにより,複雑な実世界のタスクに対して,任意の LLM の驚くべきポテンシャルが示され,画像,音声,テキスト間の一方向入力と出力が可能になった。
しかし、それはクローズドソースであり、マルチモーダルなインターリーブシーケンスの生成をサポートしていない。
因果マルチモーダルモデリングを用いて,4つのモードにまたがる離散トークンを混合したMIOを提案する。
MIOは,(1)アライメント・プレトレーニング,(2)インターリーブド・プレトレーニング,(3)スピーチ・エンハンスド・プレトレーニング,(4)テキスト・ビジュアル・音声タスクの総合的な微調整を行う。
実験の結果,MIOは従来の2つのモードベースライン,任意のモデルベースライン,さらにはモダリティ固有のベースラインと比較して,競争力があり,性能が優れていることが示唆された。
さらに、MIOは、インターリーブドビデオテキスト生成、チェーンオブビジュアル推論、ビジュアルガイドライン生成、インストラクショナル画像編集など、あらゆる機能に固有の高度な機能を示している。
関連論文リスト
- Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:10:45Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - 4M: Massively Multimodal Masked Modeling [20.69496647914175]
現在のビジョンのための機械学習モデルは、しばしば高度に専門化されており、単一のモダリティとタスクに限られている。
最近の大規模言語モデルは幅広い能力を示しており、コンピュータビジョンにおける同様の汎用モデルの可能性を示している。
視覚タスクのための多目的かつスケーラブルな基礎モデルをトレーニングするためのマルチモーダルトレーニングスキームである4Mを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。