論文の概要: Task and Perception-aware Distributed Source Coding for Correlated Speech under Bandwidth-constrained Channels
- arxiv url: http://arxiv.org/abs/2501.17879v1
- Date: Mon, 20 Jan 2025 04:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 07:52:38.866727
- Title: Task and Perception-aware Distributed Source Coding for Correlated Speech under Bandwidth-constrained Channels
- Title(参考訳): 帯域制限チャネル下での関連音声に対するタスクおよび知覚認識型分散音源符号化
- Authors: Sagnik Bhattacharya, Muhammad Ahmed Mohsin, Ahsan Bilal, John M. Cioffi,
- Abstract要約: AR/VRアプリケーションは、信頼できない帯域幅制限のチャネル上で複数のリソース制約されたデバイスから相関した高忠実度音声をリアルタイムに伝送する必要がある。
既存のオートエンコーダベースの音声源符号化法では,以下の組み合わせに対処できない。
中央受信機に送信される相関音声源に対して,ニューラル分散主成分分析(NDPCA)を用いた分散音源符号化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.674863913115431
- License:
- Abstract: Emerging wireless AR/VR applications require real-time transmission of correlated high-fidelity speech from multiple resource-constrained devices over unreliable, bandwidth-limited channels. Existing autoencoder-based speech source coding methods fail to address the combination of the following - (1) dynamic bitrate adaptation without retraining the model, (2) leveraging correlations among multiple speech sources, and (3) balancing downstream task loss with realism of reconstructed speech. We propose a neural distributed principal component analysis (NDPCA)-aided distributed source coding algorithm for correlated speech sources transmitting to a central receiver. Our method includes a perception-aware downstream task loss function that balances perceptual realism with task-specific performance. Experiments show significant PSNR improvements under bandwidth constraints over naive autoencoder methods in task-agnostic (19%) and task-aware settings (52%). It also approaches the theoretical upper bound, where all correlated sources are sent to a single encoder, especially in low-bandwidth scenarios. Additionally, we present a rate-distortion-perception trade-off curve, enabling adaptive decisions based on application-specific realism needs.
- Abstract(参考訳): 無線AR/VRアプリケーションは、複数のリソース制約されたデバイスから、信頼性の低い帯域幅制限のチャネル上で、相関した高忠実度音声をリアルタイムに伝送する必要がある。
既存のオートエンコーダベースの音声源符号化法では,(1)モデルの再学習を伴わない動的ビットレート適応,(2)複数の音声源間の相関の活用,(3)下流タスク損失と再構成音声のリアリズムのバランスの両立が困難である。
中央受信機に送信される相関音声源に対して,ニューラル分散主成分分析(NDPCA)を用いた分散音源符号化アルゴリズムを提案する。
本手法は,知覚的リアリズムとタスク固有の性能のバランスをとる,認識型ダウンストリームタスク損失関数を含む。
タスク非依存(19%)とタスク対応設定(52%)において,帯域幅制約下でのPSNRの大幅な改善が示された。
理論上界にも近づき、特に低帯域幅のシナリオでは、すべての相関したソースが単一のエンコーダに送られる。
さらに、アプリケーション固有のリアリズムのニーズに基づいて適応的な決定を可能にする、レート歪み知覚トレードオフ曲線を提案する。
関連論文リスト
- Latent Diffusion Model-Enabled Low-Latency Semantic Communication in the Presence of Semantic Ambiguities and Wireless Channel Noises [18.539501941328393]
本稿では,ソースデータのアウトレイラを処理するために,遅延拡散モデルを用いたSemComシステムを開発した。
軽量な単層遅延空間変換アダプタは、送信機でのワンショット学習を完了させる。
終端整合蒸留法を用いて, 潜時空間で訓練した拡散模型を蒸留する。
論文 参考訳(メタデータ) (2024-06-09T23:39:31Z) - Collaborative Edge AI Inference over Cloud-RAN [37.3710464868215]
クラウド無線アクセスネットワーク(Cloud-RAN)ベースの協調エッジAI推論アーキテクチャを提案する。
具体的には、地理的に分散したデバイスが、リアルタイムのノイズ破壊センサデータサンプルをキャプチャし、ノイズの多い局所特徴ベクトルを抽出する。
我々は,各RRHが同一リソースブロック上の全デバイスから局所的特徴ベクトルを同時に受信することを可能にする。
これらの集約された特徴ベクトルは量子化され、さらに集約および下流推論タスクのために中央プロセッサに送信される。
論文 参考訳(メタデータ) (2024-04-09T04:26:16Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Learning Resilient Radio Resource Management Policies with Graph Neural
Networks [124.89036526192268]
我々は、ユーザ当たりの最小容量制約でレジリエントな無線リソース管理問題を定式化する。
有限個のパラメータ集合を用いてユーザ選択と電力制御ポリシーをパラメータ化できることを示す。
このような適応により,提案手法は平均レートと5番目のパーセンタイルレートとの良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2022-03-07T19:40:39Z) - Learning Task-Oriented Communication for Edge Inference: An Information
Bottleneck Approach [3.983055670167878]
ローエンドエッジ装置は、ローカルデータサンプルの抽出された特徴ベクトルを強力なエッジサーバに送信して処理する。
帯域幅が限られているため、データを低遅延推論のための情報的かつコンパクトな表現に符号化することが重要である。
特徴抽出,ソース符号化,チャネル符号化を協調的に最適化する学習型通信方式を提案する。
論文 参考訳(メタデータ) (2021-02-08T12:53:32Z) - Deep Reinforcement Learning for Resource Constrained Multiclass
Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。
本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。
提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文 参考訳(メタデータ) (2020-11-27T09:49:38Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Infomax Neural Joint Source-Channel Coding via Adversarial Bit Flip [41.28049430114734]
本稿では、ニューラルジョイント・ソース・チャネル符号化方式の安定性と堅牢性を改善するために、Infomax Adversarial-Bit-Flip (IABF) と呼ばれる新しい正規化手法を提案する。
我々のIABFは、圧縮と誤り訂正のベンチマークの両方で最先端のパフォーマンスを達成でき、ベースラインをかなりの差で上回ることができる。
論文 参考訳(メタデータ) (2020-04-03T10:00:02Z) - Non-Cooperative Game Theory Based Rate Adaptation for Dynamic Video
Streaming over HTTP [89.30855958779425]
Dynamic Adaptive Streaming over HTTP (DASH)は、新興かつ有望なマルチメディアストリーミング技術であることを示した。
本稿では,サーバの限られた輸出帯域幅をマルチユーザに対して最適に割り当てるアルゴリズムを提案し,その品質・オブ・エクスペリエンス(QoE)を公平性で最大化する。
論文 参考訳(メタデータ) (2019-12-27T01:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。