論文の概要: OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis
- arxiv url: http://arxiv.org/abs/2501.04561v4
- Date: Sun, 23 Feb 2025 12:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:50:10.847037
- Title: OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis
- Title(参考訳): OpenOmni: プログレッシブなマルチモーダルアライメントとリアルタイム自己認識感情音声合成によるオープンソースのOmnimodal Large Languageモデルの改善
- Authors: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang,
- Abstract要約: nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
- 参考スコア(独自算出の注目度): 68.73476738779628
- License:
- Abstract: Recent advancements in omnimodal learning have significantly improved understanding and generation across images, text, and speech, yet these developments remain predominantly confined to proprietary models. The lack of high-quality omnimodal datasets and the challenges of real-time emotional speech synthesis have notably hindered progress in open-source research. To address these limitations, we introduce \name, a two-stage training framework that integrates omnimodal alignment and speech generation to develop a state-of-the-art omnimodal large language model. In the alignment phase, a pre-trained speech model undergoes further training on text-image tasks, enabling (near) zero-shot generalization from vision to speech, outperforming models trained on tri-modal datasets. In the speech generation phase, a lightweight decoder is trained on speech tasks with direct preference optimization, enabling real-time emotional speech synthesis with high fidelity. Experiments show that \name surpasses state-of-the-art models across omnimodal, vision-language, and speech-language benchmarks. It achieves a 4-point absolute improvement on OmniBench over the leading open-source model VITA, despite using 5x fewer training samples and a smaller model size (7B vs. 7x8B). Additionally, \name achieves real-time speech generation with <1s latency at non-autoregressive mode, reducing inference time by 5x compared to autoregressive methods, and improves emotion classification accuracy by 7.7\%
- Abstract(参考訳): 最近の一様学習の進歩は、画像、テキスト、音声間の理解と生成を著しく改善してきたが、これらの発展は主にプロプライエタリなモデルに限られている。
高品質な雑用データセットの欠如とリアルタイムな感情音声合成の課題は、オープンソース研究の進歩を著しく妨げている。
このような制約に対処するために,一様アライメントと音声生成を統合した二段階学習フレームワークであるShanameを導入する。
アライメントフェーズでは、事前訓練された音声モデルにより、テキストイメージタスクのさらなるトレーニングが行われ、視覚から音声への(ほぼ)ゼロショットの一般化が可能となり、トリモーダルデータセットでトレーニングされたモデルのパフォーマンスが向上する。
音声生成フェーズでは、直接選好最適化による音声タスクに対して軽量デコーダを訓練し、高忠実度でリアルタイムな感情音声合成を可能にする。
実験によると、 \name は全言語、視覚言語、音声言語ベンチマークで最先端のモデルを上回っている。
トレーニングサンプルが5倍少なく、モデルサイズが小さい(7B vs. 7x8B)にもかかわらず、主要なオープンソースモデルVITAよりもOmniBenchの4ポイント絶対的な改善を実現している。
さらに、非自己回帰モードでの<1sレイテンシによるリアルタイム音声生成を実現し、自己回帰法に比べて推論時間を5倍削減し、感情分類の精度を7.7\%向上させる。
関連論文リスト
- Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.72389428177942]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation [17.56310064245171]
SALMON-Omni(サルモン・オムニ)は、発話中に発声した音声を同時に聴くことができる音声理解・生成モデルである。
SALMON-Omniは、ターンテイキング、バージイン、エコーキャンセルのシナリオの管理に長けており、完全な対話型AIシステムの堅牢なプロトタイプとしての可能性を確立している。
論文 参考訳(メタデータ) (2024-11-27T08:38:57Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。
本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach [14.5696754689252]
音声言語モデリングの最近の進歩は、音声から直接言語を学ぶことが可能であることを示している。
音素分類に基づく微調整音声表現モデルにより、より文脈不変な表現が得られることを示す。
論文 参考訳(メタデータ) (2024-09-16T10:29:15Z) - Generating coherent spontaneous speech and gesture from text [21.90157862281996]
人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む
機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した。
私たちはこの2つの最先端技術を初めてコヒーレントな方法で組み合わせました。
論文 参考訳(メタデータ) (2021-01-14T16:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。