Fugu-MT 論文翻訳(概要): Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

論文の概要: Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

arxiv url: http://arxiv.org/abs/2505.02707v1
Date: Mon, 05 May 2025 15:05:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.717515
Title: Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
Title（参考訳）: Voila: リアルタイム自律インタラクションと音声ロールプレイのための音声言語基礎モデル
Authors: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu,
Abstract要約: Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。 Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
参考スコア（独自算出の注目度）: 21.93291433513335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A voice AI agent that blends seamlessly into daily life would interact with humans in an autonomous, real-time, and emotionally expressive manner. Rather than merely reacting to commands, it would continuously listen, reason, and respond proactively, fostering fluid, dynamic, and emotionally resonant interactions. We introduce Voila, a family of large voice-language foundation models that make a step towards this vision. Voila moves beyond traditional pipeline systems by adopting a new end-to-end architecture that enables full-duplex, low-latency conversations while preserving rich vocal nuances such as tone, rhythm, and emotion. It achieves a response latency of just 195 milliseconds, surpassing the average human response time. Its hierarchical multi-scale Transformer integrates the reasoning capabilities of large language models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware voice generation -- where users can simply write text instructions to define the speaker's identity, tone, and other characteristics. Moreover, Voila supports over one million pre-built voices and efficient customization of new ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue, Voila is designed as a unified model for a wide range of voice-based applications, including automatic speech recognition (ASR), Text-to-Speech (TTS), and, with minimal adaptation, multilingual speech translation. Voila is fully open-sourced to support open research and accelerate progress toward next-generation human-machine interactions.
Abstract（参考訳）: 日常生活にシームレスにブレンドする音声AIエージェントは、自律的でリアルタイムで感情的に表現力のある方法で人間と対話する。単にコマンドに反応するのではなく、絶えず耳を傾け、理性を持ち、積極的に反応し、流体、動的、感情的に共鳴する相互作用を育む。私たちはVoilaを紹介します。Voilaは、このビジョンに向けて一歩前進する、大きな音声言語基盤モデルのファミリーです。 Voilaは、トーン、リズム、感情といった豊かな声のニュアンスを維持しながら、完全な二重化と低レイテンシの会話を可能にする、新しいエンドツーエンドアーキテクチャを採用することで、従来のパイプラインシステムを越えている。応答レイテンシはわずか195ミリ秒で、平均的な人間の応答時間を上回る。その階層的なマルチスケールトランスフォーマーは、大きな言語モデル(LLM)の推論機能と強力な音響モデリングを統合し、自然なペルソナ対応音声生成を可能にします。さらに、Voilaは100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。音声対話以外にも、Voilaは自動音声認識(ASR)、テキスト音声変換(TTS)、最小適応、多言語音声翻訳など、幅広い音声ベースのアプリケーションのための統一モデルとして設計されている。 Voilaは完全にオープンソースで、オープンリサーチをサポートし、次世代の人間と機械の対話を加速する。

関連論文リスト

MultiVox: Benchmarking Voice Assistants for Multimodal Interactions [43.55740197419447]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。 9つの最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に基礎付けられた応答を生成するのに苦労していることを示している。
論文参考訳（メタデータ） (2025-07-14T23:20:42Z)
OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文参考訳（メタデータ） (2025-05-26T17:55:06Z)
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。 CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文参考訳（メタデータ） (2025-05-23T07:55:21Z)
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction [73.39573341265027]
シームレスな音声対話のためのマルチモーダル大規模言語モデルMinMoを紹介する。我々は、音声テキストから音声へのアライメント、テキストから音声へのアライメント、音声から音声へのアライメント、二重相互作用を通じてMinMoを訓練する。マルチテキストトレーニングの後、MinMoは音声の理解と生成のための様々なベンチマークで最先端のパフォーマンスを実現した。
論文参考訳（メタデータ） (2025-01-10T15:55:27Z)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳（メタデータ） (2024-10-09T05:04:31Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文参考訳（メタデータ） (2024-08-29T17:18:53Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。