論文の概要: Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
- arxiv url: http://arxiv.org/abs/2408.16725v2
- Date: Fri, 30 Aug 2024 02:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 10:49:44.036532
- Title: Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
- Title(参考訳): Mini-Omni: ストリーミングを考えている間、言語モデルに耳を傾ける
- Authors: Zhifei Xie, Changqiao Wu,
- Abstract要約: ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。
また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in language models have achieved significant progress. GPT-4o, as a new milestone, has enabled real-time conversations with humans, demonstrating near-human natural fluency. Such human-computer interaction necessitates models with the capability to perform reasoning directly with the audio modality and generate output in streaming. However, this remains beyond the reach of current academic models, as they typically depend on extra TTS systems for speech synthesis, resulting in undesirable latency. This paper introduces the Mini-Omni, an audio-based end-to-end conversational model, capable of real-time speech interaction. To achieve this capability, we propose a text-instructed speech generation method, along with batch-parallel strategies during inference to further boost the performance. Our method also helps to retain the original model's language capabilities with minimal degradation, enabling other works to establish real-time interaction capabilities. We call this training method "Any Model Can Talk". We also introduce the VoiceAssistant-400K dataset to fine-tune models optimized for speech output. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research.
- Abstract(参考訳): 近年の言語モデルの発展は大きな進歩を遂げている。
GPT-4oは新しいマイルストーンとして、人間とリアルタイムに会話できるようにし、人間に近い自然流布を実証した。
このような人間とコンピュータの相互作用は、音響モダリティと直接推論を行い、ストリーミングで出力を生成する能力を持つモデルを必要とする。
しかし、これは現在の学術モデルの到達範囲を超えており、通常は音声合成のための追加のTSシステムに依存しており、望ましくないレイテンシをもたらす。
本稿では,リアルタイム音声対話が可能な音声対話モデルMini-Omniを紹介する。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能をさらに向上する手法を提案する。
また,本手法は,最小限の劣化を伴って元のモデルの言語能力を保ち,他の作業者がリアルタイムの対話能力を確立するのに役立つ。
我々はこの訓練方法を「Any Model Can Talk」と呼ぶ。
また、音声出力に最適化された微調整モデルにVoiceAssistant-400Kデータセットを導入する。
われわれの知る限り、Mini-Omniは、リアルタイム音声対話のための、エンドツーエンドでオープンソースの最初のモデルであり、将来の研究に価値ある可能性を秘めている。
関連論文リスト
- Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts [11.067252960486272]
本稿では,事前学習した言語モデルを用いて,リアルタイム対話型会話をシミュレートする簡易かつ汎用的な手法を提案する。
本稿では,インスタントメッセージ対話と音声会話の2つのケーススタディを用いて,この手法の可能性を実証する。
論文 参考訳(メタデータ) (2024-05-21T21:14:31Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal
Conversational Abilities [39.07096632751864]
SpeechGPTは、固有のクロスモーダルな会話能力を持つ大きな言語モデルである。
我々は、モダリティ適応事前訓練、クロスモーダル命令微調整、チェーン・オブ・モダリティ命令微調整を含む3段階の訓練戦略を採用する。
論文 参考訳(メタデータ) (2023-05-18T14:23:25Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。