論文の概要: Large Speech Model Enabled Semantic Communication
- arxiv url: http://arxiv.org/abs/2512.04711v1
- Date: Thu, 04 Dec 2025 11:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.149351
- Title: Large Speech Model Enabled Semantic Communication
- Title(参考訳): 意味コミュニケーションが可能な大規模音声モデル
- Authors: Yun Tian, Zhijin Qin, Guocheng Lv, Ye Jin, Kaibin Huang, Zhu Han,
- Abstract要約: 大規模音声モデルにより意味コミュニケーション(LargeSC)が可能となった。
我々は、大きなモデルに埋め込まれた豊富な意味的知識を活用し、損失のあるチャネル上で適応的な伝達を可能にする。
システムは、550bpsから2.06kbpsまでの帯域幅をサポートし、パケット損失率の高い音声品質において、従来のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 58.027223937172955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing speech semantic communication systems mainly based on Joint Source-Channel Coding (JSCC) architectures have demonstrated impressive performance, but their effectiveness remains limited by model structures specifically designed for particular tasks and datasets. Recent advances indicate that generative large models pre-trained on massive datasets, can achieve outstanding performance arexhibit exceptional performance across diverse downstream tasks with minimal fine-tuning. To exploit the rich semantic knowledge embedded in large models and enable adaptive transmission over lossy channels, we propose a Large Speech Model enabled Semantic Communication (LargeSC) system. Simultaneously achieving adaptive compression and robust transmission over lossy channels remains challenging, requiring trade-offs among compression efficiency, speech quality, and latency. In this work, we employ the Mimi as a speech codec, converting speech into discrete tokens compatible with existing network architectures. We propose an adaptive controller module that enables adaptive transmission and in-band Unequal Error Protection (UEP), dynamically adjusting to both speech content and packet loss probability under bandwidth constraints. Additionally, we employ Low-Rank Adaptation (LoRA) to finetune the Moshi foundation model for generative recovery of lost speech tokens. Simulation results show that the proposed system supports bandwidths ranging from 550 bps to 2.06 kbps, outperforms conventional baselines in speech quality under high packet loss rates and achieves an end-to-end latency of approximately 460 ms, thereby demonstrating its potential for real-time deployment.
- Abstract(参考訳): 既存の音声意味コミュニケーションシステムは主にJSCC(Joint Source-Channel Coding)アーキテクチャをベースにしているが、その効果は特定のタスクやデータセットに特化して設計されたモデル構造によって制限されている。
近年の進歩は、大規模データセットで事前訓練された生成型大規模モデルにおいて、最小限の微調整で、下流の様々なタスクにまたがる卓越した性能を達成できることを示唆している。
大規模モデルに埋め込まれたリッチなセマンティック知識を活用し、損失のあるチャネル上で適応的な伝達を可能にするために、LargeSC(Large Speech Model enabled Semantic Communication)システムを提案する。
適応圧縮とロッキーチャネル上の堅牢な伝送を同時に達成することは、圧縮効率、音声品質、レイテンシのトレードオフを必要とするため、依然として困難である。
本研究では,ミミを音声コーデックとして使用し,既存のネットワークアーキテクチャと互換性のある離散トークンに変換する。
本稿では,帯域幅制約下での音声内容とパケット損失確率の両方を動的に調整し,適応伝送と帯域内不等誤差保護(UEP)を実現する適応制御モジュールを提案する。
さらに、損失した音声トークンを生成的復元するために、Moshi基盤モデルを微調整するためにLoRA(Lo-Rank Adaptation)を用いる。
シミュレーションの結果,提案方式は550bpsから2.06kbpsまでの帯域幅をサポートし,パケット損失率の高い音声品質において従来のベースラインを上回り,約460msの終端遅延を実現し,リアルタイム展開の可能性を示す。
関連論文リスト
- SemanticNN: Compressive and Error-Resilient Semantic Offloading for Extremely Weak Devices [9.795432423267503]
本稿では,セマンティックNNを提案する。セマンティックNNは,セマンティックレベルの正確性を追求するために,ビットレベルの誤りを許容するセマンティックNNである。
動的チャネル条件に適応するBER(Bit Error Rate)対応デコーダと、コンパクトな表現を学ぶためのSQ(Soft Quantization)ベースのエンコーダが組み込まれている。
我々は3つのモデルと6つのデータセットを用いてSTM32の広範囲な実験を行い、画像分類とオブジェクト検出を行う。
論文 参考訳(メタデータ) (2025-11-14T07:47:25Z) - BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - Distributionally Robust Wireless Semantic Communication with Large AI Models [111.47794569742206]
現在のSemComシステムは、様々なノイズ条件、敵攻撃、アウト・オブ・ディストリビューション・データにまたがる一般化に失敗している。
Wassersteinは、意味的誤解釈やチャネル摂動に対するレジリエンスを提供するために、分布的に堅牢な最適化を採用している。
画像とテキストの伝送実験の結果、WaSeComは雑音や逆方向の摂動下で頑健性の向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-28T04:03:57Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [66.63250537475973]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - Latent Diffusion Model-Enabled Low-Latency Semantic Communication in the Presence of Semantic Ambiguities and Wireless Channel Noises [18.539501941328393]
本稿では,ソースデータのアウトレイラを処理するために,遅延拡散モデルを用いたSemComシステムを開発した。
軽量な単層遅延空間変換アダプタは、送信機でのワンショット学習を完了させる。
終端整合蒸留法を用いて, 潜時空間で訓練した拡散模型を蒸留する。
論文 参考訳(メタデータ) (2024-06-09T23:39:31Z) - Diff-GO: Diffusion Goal-Oriented Communications to Achieve Ultra-High
Spectrum Efficiency [46.92279990929111]
本研究では,拡散モデルに基づく生成AIを用いた超効率的な通信設計を提案する。
拡散モデルの訓練のための新しい低次元ノイズ空間を提案し,通信オーバーヘッドを大幅に低減する。
実験結果から,提案したノイズ空間と拡散に基づく生成モデルにより,伝送画像信号の超高スペクトル効率と精度の回復が得られた。
論文 参考訳(メタデータ) (2023-11-13T17:52:44Z) - Toward Adaptive Semantic Communications: Efficient Data Transmission via
Online Learned Nonlinear Transform Source-Channel Coding [11.101344530143303]
深層学習モデルの過剰適合性を利用したオンライン学習型ジョイントソースとチャネルコーディング手法を提案する。
具体的には,市販の事前訓練型モデルを軽量なオンライン方式で展開し,ソースデータと環境領域の分散シフトに適応させる。
私たちはオーバーフィットの概念を極端に捉え、モデルや表現を個々のデータやチャネル状態インスタンスに適応させる実装フレンドリな一連のメソッドを提案します。
論文 参考訳(メタデータ) (2022-11-08T16:00:27Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。