論文の概要: Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS
- arxiv url: http://arxiv.org/abs/2508.04721v1
- Date: Tue, 05 Aug 2025 07:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.573127
- Title: Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS
- Title(参考訳): ストリーミングASR,量子LDM,リアルタイムTSを用いた通信用低レイテンシエンドツーエンド音声エージェントの実現に向けて
- Authors: Vignesh Ethiraj, Ashwath David, Sidhanth Menon, Divya Vijay,
- Abstract要約: リアルタイムの対話型通信を実現するために,低レイテンシな通信AI音声エージェントパイプラインを導入する。
このソリューションは、NetoAIの4つの特殊なモデルを組み合わせて、テレコム用に構築されている。
このパイプラインは、ストリーミングASR(TTE)、会話インテリジェンス(TSLAM)、テレコム文書による検索拡張生成(RAG)、リアルタイムTS(T-Synth)を統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a low-latency telecom AI voice agent pipeline for real-time, interactive telecommunications use, enabling advanced voice AI for call center automation, intelligent IVR (Interactive Voice Response), and AI-driven customer support. The solution is built for telecom, combining four specialized models by NetoAI: TSLAM, a 4-bit quantized Telecom-Specific Large Language Model (LLM); T-VEC, a Telecom-Specific Embedding Model; TTE, a Telecom-Specific Automatic Speech Recognition (ASR) model; and T-Synth, a Telecom-Specific Text-to-Speech (TTS) model. These models enable highly responsive, domain-adapted voice AI agents supporting knowledge-grounded spoken interactions with low latency. The pipeline integrates streaming ASR (TTE), conversational intelligence (TSLAM), retrieval augmented generation (RAG) over telecom documents, and real-time TTS (T-Synth), setting a new benchmark for telecom voice assistants. To evaluate the system, we built a dataset of 500 human-recorded telecom questions from RFCs, simulating real telecom agent queries. This framework allows analysis of latency, domain relevance, and real-time performance across the stack. Results show that TSLAM, TTE, and T-Synth deliver real-time factors (RTF) below 1.0, supporting enterprise, low-latency telecom deployments. These AI agents -- powered by TSLAM, TTE, and T-Synth -- provide a foundation for next-generation telecom AI, enabling automated customer support, diagnostics, and more.
- Abstract(参考訳): 我々は、電話センター自動化のための高度な音声AI、インテリジェントIVR(Interactive Voice Response)、AI駆動のカスタマーサポートを実現する、リアルタイムでインタラクティブな通信利用のための低レイテンシなテレコムAI音声エージェントパイプラインを導入する。
このソリューションは、NetoAIによって、4ビットの量子化TSLAM(Telecom-Specific Large Language Model、LLM)、T-VEC(Telecom-Specific Embedding Model)、TTE(Telecom-Specific Automatic Speech Recognition、ASR)、T-Synth(Telecom-Specific Text-to-Speech、TTS)の4つの専門モデルを組み合わせて構築されている。
これらのモデルは、低レイテンシで知識に基づく音声インタラクションをサポートする、応答性の高いドメイン適応音声AIエージェントを可能にする。
このパイプラインは、ストリーミングASR(TTE)、会話インテリジェンス(TSLAM)、テレコムドキュメント上の検索拡張生成(RAG)、リアルタイムTS(T-Synth)を統合し、テレコム音声アシスタントの新しいベンチマークを設定する。
提案システムを評価するために,実際の通信エージェントクエリをシミュレートしたRFCから,500件の人為的テレコム質問のデータセットを構築した。
このフレームワークは、レイテンシ、ドメインの関連性、スタック全体のリアルタイムパフォーマンスの分析を可能にする。
結果は、TSLAM、TTE、T-Synthがリアルタイムファクター(RTF)を1.0以下に提供し、エンタープライズ、低レイテンシのテレコムデプロイメントをサポートすることを示している。
これらのAIエージェント(TSLAM、TTE、T-Synth)は、次世代のテレコムAIの基礎を提供する。
関連論文リスト
- AI/ML Life Cycle Management for Interoperable AI Native RAN [50.61227317567369]
人工知能(AI)と機械学習(ML)モデルは、5Gラジオアクセスネットワーク(RAN)を急速に浸透させている
これらの開発は、AIネイティブなトランシーバーを6Gのキーイネーブルとして基盤を築いた。
論文 参考訳(メタデータ) (2025-07-24T16:04:59Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - Efficient Telecom Specific LLM: TSLAM-Mini with QLoRA and Digital Twin Data [0.0]
汎用大規模言語モデル (LLM) は、リアルタイム通信アプリケーションにおいて、しばしば準最適性能を示す。
本研究では,ネトカイが開発したTSLAM-Miniの微調整により,この限界に対処する。
論文 参考訳(メタデータ) (2025-05-10T12:28:47Z) - Large-Scale AI in Telecom: Charting the Roadmap for Innovation, Scalability, and Enhanced Digital Experiences [212.5544743797899]
大型通信モデル(LTM)は、現代の通信ネットワークが直面する複雑な課題に対処するために設計されたAIモデルである。
本稿は、LTMのアーキテクチャとデプロイメント戦略から、ネットワーク管理、リソース割り当て、最適化における彼らのアプリケーションまで、幅広いトピックについて論じる。
論文 参考訳(メタデータ) (2025-03-06T07:53:24Z) - Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction [110.38946048535033]
本稿では,音声認識のための最初のプロダクション対応オープンソースソリューションであるStep-Audioを紹介する。
1) 統合された理解と生成を実現する統合音声テキストマルチモーダルモデル、2) 安価な音声クローニングフレームワークを確立し、蒸留によりオープンソースで軽量なStep-Audio-TTS-3Bモデルを生産する生成音声データエンジン、3) 方言、感情、歌、RAP間の動的調整を可能にする命令駆動型微制御システム、4) ツールコールとロールプレイング機能を備えた強化認知アーキテクチャ。
論文 参考訳(メタデータ) (2025-02-17T15:58:56Z) - Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - TelecomGPT: A Framework to Build Telecom-Specfic Large Language Models [7.015008083968722]
大きな言語モデル(LLM)は、第6世代(6G)通信ネットワークに革命をもたらす可能性がある。
本稿では,汎用LLMを通信用LLMに適応させるパイプラインを提案する。
既存の評価ベンチマークを拡張し、Telecom Math Modeling、Telecom Open QnA、Telecom Code Tasksという3つの新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-12T16:51:02Z) - Test Code Generation for Telecom Software Systems using Two-Stage Generative Model [0.0]
大規模Telecomソフトウェア企業にとって、すべてのデプロイメントシナリオのためのソフトウェアの開発とテストが課題となっている。
本稿では,大規模テレコムソフトウェアシステムを対象とした自動テスト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-14T13:25:15Z) - A Wireless AI-Generated Content (AIGC) Provisioning Framework Empowered by Semantic Communication [53.78269720999609]
本稿では,セマンティック通信(SemCom)を利用したAIGC(SemAIGC)の生成と伝送フレームワークを提案する。
具体的には、セマンティックエンコーダとデコーダに拡散モデルを統合し、ワークロード調整可能なトランシーバを設計する。
提案するSemAIGCフレームワークは,従来の手法に比べてレイテンシとコンテンツ品質が優れていることがシミュレーションによって検証された。
論文 参考訳(メタデータ) (2023-10-26T18:05:22Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。