論文の概要: E2E-WAVE: End-to-End Learned Waveform Generation for Underwater Video Multicasting
- arxiv url: http://arxiv.org/abs/2604.17047v1
- Date: Sat, 18 Apr 2026 16:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.306095
- Title: E2E-WAVE: End-to-End Learned Waveform Generation for Underwater Video Multicasting
- Title(参考訳): E2E-WAVE:水中ビデオマルチキャストのためのエンドツーエンド学習波形生成
- Authors: Khizar Anjum, Tingcong Jiang, Dario Pompili,
- Abstract要約: E2E-WAVEは水中ビデオマルチキャストのための最初のエンドツーエンド学習波形生成システムである。
E2E-WAVEは、意味的類似性を物理層波形に直接埋め込むことによってこの問題に対処する。
5dB (19.26%) PSNRと+0.10 (14.28%) SSIMを、より難易度の高い水中チャネル(NOF1)において最強のFEC保護ベースラインで達成する。
HEVCは5kbps以下で失敗し、SoftCastのAWGN仮定は周波数選択チャネルで崩壊する。
- 参考スコア(独自算出の注目度): 6.466721034075619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present E2E-WAVE, the first end-to-end learned waveform generation system for underwater video multicasting. Acoustic channels exhibit 20--46% bit error rates where forward error correction becomes counterproductive -- LDPC increases rather than decreases errors beyond its decoding threshold. E2E-WAVE addresses this by embedding semantic similarity directly into physical layer waveforms: when decoding errors are unavoidable, the system preferentially selects semantically similar tokens rather than arbitrary corruption. Combining VideoGPT tokenization (1024x compression) with a trainable waveform bank and fully differentiable OFDM transmission, E2E-WAVE achieves +5 dB (19.26%) PSNR and +0.10 (14.28%) SSIM over the strongest FEC-protected baseline in less challenging underwater channel (NOF1) while delivering real-time 16 FPS video at 128x128 resolution over 2.3 kbps channels -- impossible for conventional digital modulation. The performance gap only increases in harsher channels (BCH1, NCS1). Trained on a single channel, E2E-WAVE generalizes to unseen underwater environments without retraining, while HEVC fails at sub-5 kbps rates and SoftCast's AWGN assumptions collapse on frequency-selective channels.
- Abstract(参考訳): E2E-WAVEは水中ビデオマルチキャストのための最初のエンドツーエンド学習波形生成システムである。
音響チャネルは、前方誤り訂正が非生産的になる20~46%のビットエラー率を示す。
E2E-WAVEは、物理的レイヤの波形に直接意味的類似性を埋め込むことによってこの問題に対処する。
VideoGPTトークン化(1024倍圧縮)とトレーニング可能な波形バンクと完全に微分可能なOFDM伝送を組み合わせることで、E2E-WAVEはPSNR+5dB(19.26%)と+0.10(14.28%)のSSIMを達成できる。
性能ギャップは、より厳しいチャネル(BCH1, NCS1)でのみ増加する。
E2E-WAVEは1つのチャンネルで訓練され、再訓練せずに海底環境に一般化され、HEVCは5kbps以下で失敗し、SoftCastのAWGN仮定は周波数選択チャネルで崩壊する。
関連論文リスト
- Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers [54.82164616081277]
D2AJSCCは、標準デジタルPHY上に高忠実度アナログJ SCCをデプロイできる新しいフレームワークである。
本システムは,SNR条件にまたがる優雅な劣化を伴って,ほぼ理想のアナログJ SCC性能を実現する。
ハードウェア変更なしにレガシーインフラストラクチャ上で次世代のセマンティックトランスミッションを可能にすることで,ネットワークの持続的進化を促進する。
論文 参考訳(メタデータ) (2026-03-10T01:42:23Z) - LCUDiff: Latent Capacity Upgrade Diffusion for Faithful Human Body Restoration [23.264518366939825]
劣化した人中心のイメージを復元する既存の方法は、しばしば不十分な忠実さに苦しむ。
そこで我々はLCUDiffを提案する。LCUDiffは訓練済みの潜伏拡散モデルをアップグレードする安定なワンステップフレームワークである。
合成および実世界のデータセットの実験は、より高い忠実度と少ないアーティファクトによる競争結果を示している。
論文 参考訳(メタデータ) (2026-02-04T10:37:46Z) - CP Loss: Channel-wise Perceptual Loss for Time Series Forecasting [67.3477355449697]
時系列データに対するチャネルワイド知覚損失(CP損失)を提案する。
我々は,その特性に適応した各チャネルに対して,独自の知覚空間を学習する。
これらの知覚空間内で損失を計算し、モデルを最適化する。
論文 参考訳(メタデータ) (2026-01-25T15:31:37Z) - Practical underwater quantum key distribution based on decoy-state BB84
protocol [0.0]
量子鍵分布を符号化する分極は、セキュアな通信システムを構築するための信頼性の高い方法であることが証明されている。
本研究では, 将来的な海洋実験のためのコンパクトなシステム設計により, 水流上のBB84量子鍵分布系を実証する。
論文 参考訳(メタデータ) (2022-03-09T09:31:15Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Robust learning from corrupted EEG with dynamic spatial filtering [68.82260713085522]
実験室の外で記録されたEEGを使用して機械学習モデルを構築するには、ノイズの多いデータとランダムに欠落するチャネルにロバストな方法が必要である。
ニューラルネットワークの第1層の前に挿入可能なマルチヘッドアテンションモジュールである動的空間フィルタリング(DSF)を提案する。
筆者らは, チャネル汚損を模擬した4000件の録音を含む公開脳波データと, 自然汚損をともなう移動脳波の自家記録100件のプライベートデータセットを用いて, DSFを試験した。
論文 参考訳(メタデータ) (2021-05-27T02:33:16Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Phase-Modulated Radar Waveform Classification Using Deep Networks [12.980296933051509]
本稿では,SIDLEデータセットからの非同期波形の分類誤差を18%から0.14%に低減できることを示した。
また,過去の研究とは異なり,多重重なり波形の正確な分類も可能であることを示す。
論文 参考訳(メタデータ) (2021-02-15T20:07:17Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。