Fugu-MT 論文翻訳(概要): Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

論文の概要: Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

arxiv url: http://arxiv.org/abs/2502.04328v2
Date: Wed, 12 Feb 2025 18:40:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 13:45:28.174435
Title: Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
Title（参考訳）: Ola: プログレッシブなモダリティアライメントを備えたOmni-Modal Language Modelのフロンティアを推進
Authors: Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao,
Abstract要約: Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
参考スコア（独自算出の注目度）: 88.72389428177942
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large language models, particularly following GPT-4o, have sparked increasing interest in developing omni-modal models capable of understanding more modalities. While some open-source alternatives have emerged, there is still a notable lag behind specialized single-modality models in performance. In this paper, we present Ola, an Omni-modal language model that achieves competitive performance across image, video, and audio understanding compared to specialized counterparts. The core design of Ola lies in its progressive modality alignment strategy that extends the supporting modality of the language model progressively. Our training pipeline begins with the most distinct modalities: image and text, then gradually expands the skill sets of the model using speech data that connects language and audio knowledge, and video data that connects all modalities. The progressive learning pipeline also enables us to maintain a relatively small size of the cross-modal alignment data, making developing omni-modal from existing vision-language models easy and less costly. Moreover, to unlock an advanced interactive experience like GPT-4o, we further design a sentence-wise decoding solution for streaming speech generation. Extensive experiments demonstrate that Ola surpasses existing open omni-modal LLMs across all modalities while achieving highly competitive performance compared to state-of-the-art specialized models of similar sizes. We aim to make Ola a fully open omni-modal understanding solution to advance future research in this emerging field. Model weights, code, and data are open-sourced at https://github.com/Ola-Omni/Ola.
Abstract（参考訳）: GPT-4o以降の大規模言語モデルの最近の進歩は、よりモダリティを理解することができるオムニモーダルモデルの開発への関心が高まっている。オープンソースの代替案がいくつか現れたが、パフォーマンスに特化している単一モダリティモデルにはまだ大きな遅れがある。本稿では,Omni-modal言語モデルであるOlaについて述べる。 Olaの中核となる設計は、言語モデルのサポートモダリティを徐々に拡張するプログレッシブモダリティアライメント戦略にある。トレーニングパイプラインは、画像とテキストから始まり、言語と音声の知識を接続する音声データと、すべてのモダリティを接続するビデオデータを使用して、モデルのスキルセットを徐々に拡張します。プログレッシブラーニングパイプラインはまた、クロスモーダルアライメントデータの比較的小さなサイズを維持でき、既存の視覚言語モデルからのオムニモーダルの開発を容易かつ安価に行えるようにします。さらに,GPT-4oのような先進的な対話的体験を解き放つために,ストリーム音声生成のための文単位のデコーディングソリューションをさらに設計する。大規模な実験により、Olaはあらゆるモダリティにまたがる既存のオープンオムニモダル LLM を超越し、類似サイズの最先端の特殊モデルと比較して高い競争性能を達成していることが示された。我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。モデルはhttps://github.com/Ola-Omni/Olaで公開されている。

関連論文リスト

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo [25.89459841661218]
Ve Omni - 大規模言語モデル(LLM)のトレーニングフレームワーク。 Ve Omni氏は、計算からコミュニケーションを分離するモデル中心の分散レシピを紹介した。 Ve Omniは2,800トークン/秒/GPUスループットでトレーニングでき、128GPU上の3D並列処理によって160Kのコンテキスト長にスケールすることができる。
論文参考訳（メタデータ） (2025-08-04T11:33:04Z)
Is Extending Modality The Right Path Towards Omni-Modality? [34.79461922911039]
対象ドメインと言語データに基づいて,市販の言語モデルを微調整したマルチモーダルモデルのトレーニング手法であるモーダリティの拡張の効果について検討する。これらのトレードオフを分析し、現在のアプローチによる真正のモダリティの実現可能性に関する洞察を提供する。
論文参考訳（メタデータ） (2025-06-02T17:01:40Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [68.73476738779628]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。 nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文参考訳（メタデータ） (2025-01-08T15:18:09Z)
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。 Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文参考訳（メタデータ） (2024-12-12T17:50:39Z)
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文参考訳（メタデータ） (2024-10-15T02:10:45Z)
MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。 MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文参考訳（メタデータ） (2024-09-26T09:57:16Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-02-19T15:33:10Z)
What Makes for Robust Multi-Modal Models in the Face of Missing Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。 UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。 UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文参考訳（メタデータ） (2023-10-10T07:47:57Z)
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics [99.03895740754402]
X-modalerは最先端のクロスモーダル分析をいくつかの汎用ステージにカプセル化する。 X-modalerはApacheライセンスで,ソースコードやサンプルプロジェクト,トレーニング済みのモデルなどがオンラインで公開されている。
論文参考訳（メタデータ） (2021-08-18T16:05:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。