Fugu-MT 論文翻訳(概要): Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

論文の概要: Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

arxiv url: http://arxiv.org/abs/2408.16725v2
Date: Fri, 30 Aug 2024 02:53:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 10:49:44.036532
Title: Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
Title（参考訳）: Mini-Omni: ストリーミングを考えている間、言語モデルに耳を傾ける
Authors: Zhifei Xie, Changqiao Wu,
Abstract要約: ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in language models have achieved significant progress. GPT-4o, as a new milestone, has enabled real-time conversations with humans, demonstrating near-human natural fluency. Such human-computer interaction necessitates models with the capability to perform reasoning directly with the audio modality and generate output in streaming. However, this remains beyond the reach of current academic models, as they typically depend on extra TTS systems for speech synthesis, resulting in undesirable latency. This paper introduces the Mini-Omni, an audio-based end-to-end conversational model, capable of real-time speech interaction. To achieve this capability, we propose a text-instructed speech generation method, along with batch-parallel strategies during inference to further boost the performance. Our method also helps to retain the original model's language capabilities with minimal degradation, enabling other works to establish real-time interaction capabilities. We call this training method "Any Model Can Talk". We also introduce the VoiceAssistant-400K dataset to fine-tune models optimized for speech output. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research.
Abstract（参考訳）: 近年の言語モデルの発展は大きな進歩を遂げている。 GPT-4oは新しいマイルストーンとして、人間とリアルタイムに会話できるようにし、人間に近い自然流布を実証した。このような人間とコンピュータの相互作用は、音響モダリティと直接推論を行い、ストリーミングで出力を生成する能力を持つモデルを必要とする。しかし、これは現在の学術モデルの到達範囲を超えており、通常は音声合成のための追加のTSシステムに依存しており、望ましくないレイテンシをもたらす。本稿では,リアルタイム音声対話が可能な音声対話モデルMini-Omniを紹介する。そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能をさらに向上する手法を提案する。また,本手法は,最小限の劣化を伴って元のモデルの言語能力を保ち,他の作業者がリアルタイムの対話能力を確立するのに役立つ。我々はこの訓練方法を「Any Model Can Talk」と呼ぶ。また、音声出力に最適化された微調整モデルにVoiceAssistant-400Kデータセットを導入する。われわれの知る限り、Mini-Omniは、リアルタイム音声対話のための、エンドツーエンドでオープンソースの最初のモデルであり、将来の研究に価値ある可能性を秘めている。

関連論文リスト

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文参考訳（メタデータ） (2026-01-16T14:25:57Z)
NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-06-01T12:01:40Z)
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play [21.93291433513335]
Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。 Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
論文参考訳（メタデータ） (2025-05-05T15:05:01Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文参考訳（メタデータ） (2025-02-24T15:16:34Z)
OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [68.73476738779628]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。 nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文参考訳（メタデータ） (2025-01-08T15:18:09Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文参考訳（メタデータ） (2024-10-15T02:10:45Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文参考訳（メタデータ） (2024-08-05T16:47:22Z)
Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts [11.067252960486272]
本稿では,事前学習した言語モデルを用いて,リアルタイム対話型会話をシミュレートする簡易かつ汎用的な手法を提案する。本稿では,インスタントメッセージ対話と音声会話の2つのケーススタディを用いて,この手法の可能性を実証する。
論文参考訳（メタデータ） (2024-05-21T21:14:31Z)
SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。 SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文参考訳（メタデータ） (2024-01-24T15:25:01Z)
Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文参考訳（メタデータ） (2024-01-05T14:47:20Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。