論文の概要: Generative Semantic Communication for Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2410.03459v1
- Date: Fri, 4 Oct 2024 14:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:09:37.823332
- Title: Generative Semantic Communication for Text-to-Speech Synthesis
- Title(参考訳): テキスト音声合成のための生成意味コミュニケーション
- Authors: Jiahao Zheng, Jinke Ren, Peng Xu, Zhihao Yuan, Jie Xu, Fangxin Wang, Gui Gui, Shuguang Cui,
- Abstract要約: 本稿では,テキスト音声合成のための新しい意味コミュニケーションフレームワークを開発する。
我々はトランスフォーマーエンコーダと拡散モデルを用いて,重要な通信オーバーヘッドを発生させることなく,効率的なセマンティックコーディングを実現する。
- 参考スコア(独自算出の注目度): 39.8799066368712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic communication is a promising technology to improve communication efficiency by transmitting only the semantic information of the source data. However, traditional semantic communication methods primarily focus on data reconstruction tasks, which may not be efficient for emerging generative tasks such as text-to-speech (TTS) synthesis. To address this limitation, this paper develops a novel generative semantic communication framework for TTS synthesis, leveraging generative artificial intelligence technologies. Firstly, we utilize a pre-trained large speech model called WavLM and the residual vector quantization method to construct two semantic knowledge bases (KBs) at the transmitter and receiver, respectively. The KB at the transmitter enables effective semantic extraction, while the KB at the receiver facilitates lifelike speech synthesis. Then, we employ a transformer encoder and a diffusion model to achieve efficient semantic coding without introducing significant communication overhead. Finally, numerical results demonstrate that our framework achieves much higher fidelity for the generated speech than four baselines, in both cases with additive white Gaussian noise channel and Rayleigh fading channel.
- Abstract(参考訳): セマンティック通信は、ソースデータのセマンティック情報のみを送信することによって、通信効率を向上させるための有望な技術である。
しかし,従来の意味コミュニケーション手法は,テキスト音声合成(TTS)のような新たな生成タスクでは効率が良くないデータ再構成タスクに重点を置いている。
この制限に対処するために, 生成人工知能技術を活用した, TTS合成のための新しい生成意味コミュニケーションフレームワークを開発する。
まず,WavLMと残留ベクトル量子化法という事前学習された大音声モデルを用いて,送信側と受信側で2つの意味的知識ベース(KB)を構築する。
送信機におけるKBは効果的な意味抽出を可能にし、受信機におけるKBは生命に似た音声合成を促進する。
そこで我々は,トランスフォーマーエンコーダと拡散モデルを用いて,通信オーバーヘッドを伴わずに効率的なセマンティックコーディングを実現する。
最後に, 付加的な白色ガウスノイズ流路とレイリーフェディング流路のいずれにおいても, 生成した音声の忠実度は4つのベースラインよりもはるかに高いことを示した。
関連論文リスト
- Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Knowledge Base Enabled Semantic Communication: A Generative Perspective [47.49283348253937]
本稿では, 意味的知識ベース(KB)の活用にひび割れを取り, 生成的セマンティックコミュニケーションの新しい時代を先導する。
セマンティックKBでは、ソースメッセージは所望の意味を妥協することなく低次元のサブスペースで特徴付けられる。
論文 参考訳(メタデータ) (2023-11-21T08:54:49Z) - Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation [53.97155730116369]
我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-20T08:19:05Z) - Transformer-based Joint Source Channel Coding for Textual Semantic
Communication [23.431590618978948]
Space-Air-Ground-Sea統合ネットワークコールにより、ジャミングに対するより堅牢でセキュアな送信技術が要求される。
本稿では,文のモデル化とエンコードに先進的な自然言語処理技術を利用する,ロバスト伝送のためのテキスト意味伝達フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-23T08:42:05Z) - Knowledge Enhanced Semantic Communication Receiver [7.171974845607281]
本稿では,意味的推論と復号化のための知識ベースにおける事実をより積極的に活用できる知識強化セマンティックコミュニケーションフレームワークを提案する。
具体的には、受信した雑音信号に関連性のある事実三重項を求めるための変圧器に基づく知識抽出器を設計する。
WebNLGデータセットの大規模なシミュレーション結果から,提案した受信機は,知識グラフのデコーディングを向上した上で,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-02-13T01:49:51Z) - Semantic-Native Communication: A Simplicial Complex Perspective [50.099494681671224]
トポロジカル空間の観点から意味コミュニケーションを研究する。
送信機はまずデータを$k$の単純複素数にマッピングし、その高次相関を学習する。
受信機は構造を復号し、行方不明または歪んだデータを推測する。
論文 参考訳(メタデータ) (2022-10-30T22:33:44Z) - Communication Beyond Transmitting Bits: Semantics-Guided Source and
Channel Coding [7.080957878208516]
セマンティックコミュニケーションは有望な研究方向を提供する。
セマンティック・アウェア・コミュニケーションを実現するために、コード化された伝達設計にセマンティックガイダンスを注入することは、有効性と信頼性の大きなブレークスルーの可能性を秘めている。
本稿では,セマンティックコミュニケーションの伝達パラダイムとして,セマンティックス誘導ソースとチャネルコーディングに光を当てる。
論文 参考訳(メタデータ) (2022-08-04T06:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。