論文の概要: i-LAVA: Insights on Low Latency Voice-2-Voice Architecture for Agents
- arxiv url: http://arxiv.org/abs/2509.20971v2
- Date: Sat, 27 Sep 2025 07:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 11:50:46.824935
- Title: i-LAVA: Insights on Low Latency Voice-2-Voice Architecture for Agents
- Title(参考訳): i-LAVA:エージェントのための低レイテンシ音声-2音声アーキテクチャの検討
- Authors: Anupam Purwar, Aditya Choudhary,
- Abstract要約: 我々は,音声音声合成システム(V-2-V)に不可欠なコンポーネントを解析し,自動音声認識(ASR),テキスト音声合成(TTS),ダイアログ管理を行う。
我々の研究は、自然停止や宣言を含む感情に満ちた生活に似た音声を生成するTTS成分がリアルタイムファクター(RTF)に最も影響を与えることを確認した。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We experiment with a low-latency, end-to-end voice-to-voice communication model to optimize it for real-time conversational applications. By analyzing components essential to voice to voice (V-2-V) system viz. automatic speech recognition (ASR), text-to-speech (TTS), and dialog management, our work analyzes how to reduce processing time while maintaining high-quality interactions to identify the levers for optimizing V-2-V system. Our work identifies that TTS component which generates life-like voice, full of emotions including natural pauses and exclamations has highest impact on Real time factor (RTF). The experimented V-2-V architecture utilizes CSM1b has the capability to understand tone as well as context of conversation by ingesting both audio and text of prior exchanges to generate contextually accurate speech. We explored optimization of Residual Vector Quantization (RVQ) iterations by the TTS decoder which come at a cost of decrease in the quality of voice generated. Our experimental evaluations also demonstrate that for V-2-V implementations based on CSM most important optimizations can be brought by reducing the number of RVQ Iterations along with the codebooks used in Mimi.
- Abstract(参考訳): 我々は、低レイテンシでエンドツーエンドの音声対音声通信モデルを用いて、リアルタイムの会話アプリケーションに最適化する実験を行った。
音声音声合成システム(V-2-V)に不可欠なコンポーネントを解析することにより,音声自動音声認識(ASR),テキスト音声合成(TTS),ダイアログ管理を実現し,高品質なインタラクションを維持しながら処理時間を短縮し,V-2-Vシステムを最適化するためのレバーを特定する。
本研究は,実時間因子(RTF)に最も影響を及ぼす感情に満ちたライフライクな音声を生成するTAS成分を同定した。
実験されたV-2-Vアーキテクチャでは、CSM1bは、事前交換の音声とテキストの両方を取り込み、文脈的に正確な音声を生成することで、会話のトーンと文脈を理解することができる。
TTSデコーダによる残差ベクトル量子化(RVQ)イテレーションの最適化について検討した。
また, CSM に基づく V-2-V 実装では,Mimi で使用されているコードブックと合わせて RVQ イテレーションの数を削減できることを示す。
関連論文リスト
- CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization [16.372875825530787]
CoGenAVは、汎用的なオーディオ視覚表現を学習するために設計された、強力でデータ効率のよいモデルである。
CoGenAVは、自然な音声-視覚同期、対照的な特徴アライメント、生成テキスト予測から導かれる2つの目的を最適化することで訓練される。
複数のベンチマークで学習したCoGenAV表現の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2025-05-06T05:07:11Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions [48.02083833667388]
仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。
オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
論文 参考訳(メタデータ) (2025-01-31T18:30:36Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。