論文の概要: Large Generative Model-assisted Talking-face Semantic Communication System
- arxiv url: http://arxiv.org/abs/2411.03876v1
- Date: Wed, 06 Nov 2024 12:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:22:00.655423
- Title: Large Generative Model-assisted Talking-face Semantic Communication System
- Title(参考訳): 大規模生成モデルを用いた対話面意味コミュニケーションシステム
- Authors: Feibo Jiang, Siwei Tu, Li Dong, Cunhua Pan, Jiangzhou Wang, Xiaohu You,
- Abstract要約: 本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
- 参考スコア(独自算出の注目度): 55.42631520122753
- License:
- Abstract: The rapid development of generative Artificial Intelligence (AI) continually unveils the potential of Semantic Communication (SemCom). However, current talking-face SemCom systems still encounter challenges such as low bandwidth utilization, semantic ambiguity, and diminished Quality of Experience (QoE). This study introduces a Large Generative Model-assisted Talking-face Semantic Communication (LGM-TSC) System tailored for the talking-face video communication. Firstly, we introduce a Generative Semantic Extractor (GSE) at the transmitter based on the FunASR model to convert semantically sparse talking-face videos into texts with high information density. Secondly, we establish a private Knowledge Base (KB) based on the Large Language Model (LLM) for semantic disambiguation and correction, complemented by a joint knowledge base-semantic-channel coding scheme. Finally, at the receiver, we propose a Generative Semantic Reconstructor (GSR) that utilizes BERT-VITS2 and SadTalker models to transform text back into a high-QoE talking-face video matching the user's timbre. Simulation results demonstrate the feasibility and effectiveness of the proposed LGM-TSC system.
- Abstract(参考訳): 生成人工知能(AI)の急速な発展は、セマンティックコミュニケーション(Semantic Communication, SemCom)の可能性を継続的に明らかにしている。
しかし、現在のSemComシステムでは、低帯域利用、意味的あいまいさ、QoE(Quality of Experience)の低下といった課題に直面している。
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
まず,FunASRモデルに基づく送信機に生成セマンティック・エクストラクタ(GSE)を導入する。
次に,Large Language Model (LLM) に基づく知識ベース (KB) を構築し,意味の曖昧さと訂正を行う。
最後に, BERT-VITS2 と SadTalker モデルを用いて, ユーザの音色に合わせてテキストを高QoE 音声に変換する生成セマンティック・リコンストラクタ (GSR) を提案する。
シミュレーションの結果,提案したLGM-TSCシステムの有効性と有効性を示した。
関連論文リスト
- Semantic Feature Decomposition based Semantic Communication System of Images with Large-scale Visual Generation Models [5.867765921443141]
テクスチャカラーに基づく画像TCSCIのセマンティックコミュニケーションシステムを提案する。
イメージを自然言語記述(テキスト)、テクスチャ、色の意味的特徴に分解する。
非常に圧縮され、ノイズに強く、視覚的に類似した画像意味コミュニケーションを実現し、伝送プロセスの解釈性と編集性を確保する。
論文 参考訳(メタデータ) (2024-10-26T08:53:05Z) - Generative Semantic Communication for Text-to-Speech Synthesis [39.8799066368712]
本稿では,テキスト音声合成のための新しい意味コミュニケーションフレームワークを開発する。
我々はトランスフォーマーエンコーダと拡散モデルを用いて,重要な通信オーバーヘッドを発生させることなく,効率的なセマンティックコーディングを実現する。
論文 参考訳(メタデータ) (2024-10-04T14:18:31Z) - On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation [53.97155730116369]
我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-20T08:19:05Z) - Generative AI-aided Joint Training-free Secure Semantic Communications
via Multi-modal Prompts [89.04751776308656]
本稿では,多モデルプロンプトを用いたGAI支援型SemComシステムを提案する。
セキュリティ上の懸念に応えて、フレンドリーなジャマーによって支援される隠蔽通信の応用を紹介する。
論文 参考訳(メタデータ) (2023-09-05T23:24:56Z) - Causal Semantic Communication for Digital Twins: A Generalizable
Imitation Learning Approach [74.25870052841226]
デジタルツイン(DT)は、物理世界の仮想表現と通信(例えば6G)、コンピュータ、人工知能(AI)技術を活用して、多くの接続されたインテリジェンスサービスを実現する。
無線システムは、厳密な通信制約下での情報意思決定を容易にするために意味コミュニケーション(SC)のパラダイムを利用することができる。
DTベースの無線システムでは,因果意味通信(CSC)と呼ばれる新しいフレームワークが提案されている。
論文 参考訳(メタデータ) (2023-04-25T00:15:00Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Seq2Seq-SC: End-to-End Semantic Communication Systems with Pre-trained
Language Model [20.925910474226885]
本稿では,5G NRと互換性のあるセマンティック・セマンティック・ネットワーク Seq2seq-SC を提案する。
我々は,語彙的類似度をBLEUで測定し,意味的類似度をSBERTで測定した意味的類似度という性能指標を用いる。
論文 参考訳(メタデータ) (2022-10-27T07:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。