論文の概要: Generative Voice Bursts during Phone Call
- arxiv url: http://arxiv.org/abs/2506.07526v1
- Date: Mon, 09 Jun 2025 08:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.85883
- Title: Generative Voice Bursts during Phone Call
- Title(参考訳): 電話における生成音声バースト
- Authors: Paritosh Ranjan, Surajit Majumder, Prodip Roy,
- Abstract要約: 本稿では,現在進行中の通話中に音声を短時間で,文脈に配慮した音声メッセージを送信するための新しい手法を提案する。
生成AI技術を活用することで、システムはコンテキスト入力から音声メッセージを自動生成する。
このソリューションには音声、テキスト、優先度推論機構が含まれており、優先度の高い緊急メッセージを従来の呼び出し待ち障壁をバイパスすることができる。
- 参考スコア(独自算出の注目度): 0.17205106391379024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In critical situations, conventional mobile telephony fails to convey emergency voice messages to a callee already engaged in another call. The standard call waiting alert does not provide the urgency or content of the waiting call. This paper proposes a novel method for transmitting Generative Voice Bursts short, context aware audio messages during ongoing calls, from either preauthorized or dynamically prioritized callers. By leveraging generative AI techniques, the system automatically generates spoken messages from contextual inputs example like location, health data, images, background noise when the caller is unable to speak due to incapacitation or environmental constraints. The solution incorporates voice, text, and priority inference mechanisms, allowing high priority emergency messages to bypass conventional call waiting barriers. The approach employs models such as GPT Neo for generative text, which is synthesized into audio and delivered in configurable intervals G seconds and counts N times, ensuring minimal disruption while preserving urgency. This method holds potential for significant impact across telecom, mobile device manufacturing, and emergency communication platforms.
- Abstract(参考訳): 危機的状況下では、従来の移動電話は、既に別の呼び出しに従事している呼び出し者に緊急の音声メッセージを伝達することができない。
標準のコール待ちアラートは、待機コールの緊急性や内容を提供しない。
本稿では,通話中の音声を,事前に承認されたか動的に優先した呼出者から短時間かつ文脈に配慮した音声メッセージを送信するための新しい手法を提案する。
生成AI技術を活用することで、システムは、場所、健康データ、画像、通話者が会話できないときのバックグラウンドノイズなどのコンテキスト入力から、音声メッセージを自動生成する。
このソリューションには音声、テキスト、優先度推論機構が含まれており、優先度の高い緊急メッセージを従来の呼び出し待ち障壁をバイパスすることができる。
このアプローチでは、生成テキストにGPT Neoのようなモデルを使用し、オーディオに合成され、構成可能な間隔G秒で配信され、N回カウントされる。
この方法は、通信、モバイルデバイス製造、緊急通信プラットフォームに重大な影響を与える可能性がある。
関連論文リスト
- Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework [6.002582335323663]
白箱シナリオにおけるMLLM(Multimodal Large Language Models)の音声入力を対象とする逆攻撃を提案する。
本稿では,新たなトークンレベルアタックを導入し,モデルの音声トークン化へのアクセスを活用して,逆トークン列を生成する。
当社のアプローチでは,複数の制限されたタスクに対して,最大99%の攻撃成功率を実現しています。
論文 参考訳(メタデータ) (2025-05-24T20:46:36Z) - Efficient VoIP Communications through LLM-based Real-Time Speech Reconstruction and Call Prioritization for Emergency Services [0.0]
緊急通信システムは、パケット損失、帯域制限、信号品質の低下、遅延、VoIPシステムのジッタによる破壊に直面している。
苦悩の被害者はしばしば、パニック、発声障害、背景雑音による重要な情報を伝えるのに苦労する。
本稿では,不完全な音声を再構成し,文脈的ギャップを埋め,重大度に基づく呼の優先順位付けを行うことにより,これらの課題に対処するためにLarge Language Models(LLMs)を活用することを提案する。
論文 参考訳(メタデータ) (2024-12-09T17:22:40Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Jäger: Automated Telephone Call Traceback [45.67265362470739]
分散セキュアなコールトレースバックシステムであるJ"agerを紹介します。
J"agerは、部分的なデプロイであっても、数秒で呼び出しをトレースできる。
論文 参考訳(メタデータ) (2024-09-04T16:09:28Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Voice Recognition Robot with Real-Time Surveillance and Automation [0.0]
本稿では,Android アプリケーションを用いて入力音声信号を対応するテキストに変換する音声認識システムを提案する。
テキストメッセージはBluetooth経由で送信され、通信プラットフォームとして機能する。
本稿では,音声認識のリアルタイム監視・自動化への応用を拡張し,障害物検出・回避機構を取り入れた。
論文 参考訳(メタデータ) (2023-12-07T06:31:04Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。