論文の概要: Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
- arxiv url: http://arxiv.org/abs/2502.04328v2
- Date: Wed, 12 Feb 2025 18:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:07.697632
- Title: Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
- Title(参考訳): Ola: プログレッシブなモダリティアライメントを備えたOmni-Modal Language Modelのフロンティアを推進
- Authors: Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao,
- Abstract要約: Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
- 参考スコア(独自算出の注目度): 88.72389428177942
- License:
- Abstract: Recent advances in large language models, particularly following GPT-4o, have sparked increasing interest in developing omni-modal models capable of understanding more modalities. While some open-source alternatives have emerged, there is still a notable lag behind specialized single-modality models in performance. In this paper, we present Ola, an Omni-modal language model that achieves competitive performance across image, video, and audio understanding compared to specialized counterparts. The core design of Ola lies in its progressive modality alignment strategy that extends the supporting modality of the language model progressively. Our training pipeline begins with the most distinct modalities: image and text, then gradually expands the skill sets of the model using speech data that connects language and audio knowledge, and video data that connects all modalities. The progressive learning pipeline also enables us to maintain a relatively small size of the cross-modal alignment data, making developing omni-modal from existing vision-language models easy and less costly. Moreover, to unlock an advanced interactive experience like GPT-4o, we further design a sentence-wise decoding solution for streaming speech generation. Extensive experiments demonstrate that Ola surpasses existing open omni-modal LLMs across all modalities while achieving highly competitive performance compared to state-of-the-art specialized models of similar sizes. We aim to make Ola a fully open omni-modal understanding solution to advance future research in this emerging field. Model weights, code, and data are open-sourced at https://github.com/Ola-Omni/Ola.
- Abstract(参考訳): GPT-4o以降の大規模言語モデルの最近の進歩は、よりモダリティを理解することができるオムニモーダルモデルの開発への関心が高まっている。
オープンソースの代替案がいくつか現れたが、パフォーマンスに特化している単一モダリティモデルにはまだ大きな遅れがある。
本稿では,Omni-modal言語モデルであるOlaについて述べる。
Olaの中核となる設計は、言語モデルのサポートモダリティを徐々に拡張するプログレッシブモダリティアライメント戦略にある。
トレーニングパイプラインは、画像とテキストから始まり、言語と音声の知識を接続する音声データと、すべてのモダリティを接続するビデオデータを使用して、モデルのスキルセットを徐々に拡張します。
プログレッシブラーニングパイプラインはまた、クロスモーダルアライメントデータの比較的小さなサイズを維持でき、既存の視覚言語モデルからのオムニモーダルの開発を容易かつ安価に行えるようにします。
さらに,GPT-4oのような先進的な対話的体験を解き放つために,ストリーム音声生成のための文単位のデコーディングソリューションをさらに設計する。
大規模な実験により、Olaはあらゆるモダリティにまたがる既存のオープンオムニモダル LLM を超越し、類似サイズの最先端の特殊モデルと比較して高い競争性能を達成していることが示された。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
モデルはhttps://github.com/Ola-Omni/Olaで公開されている。
関連論文リスト
- OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis [68.73476738779628]
両モードアライメントと音声生成を組み合わせた2段階学習手法であるopenomniを提案する。
実験により、openomniは全言語、視覚言語、言語評価において一貫して改善されていることが示された。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。
Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文 参考訳(メタデータ) (2024-12-12T17:50:39Z) - From Unimodal to Multimodal: Scaling up Projectors to Align Modalities [16.733970553781887]
そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。
本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。
これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。