論文の概要: Token Encoding for Semantic Recovery
- arxiv url: http://arxiv.org/abs/2604.12931v1
- Date: Tue, 14 Apr 2026 16:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.558358
- Title: Token Encoding for Semantic Recovery
- Title(参考訳): 意味回復のためのトークン符号化
- Authors: Jingzhi Hu, Geoffrey Ye Li,
- Abstract要約: トークンベースのセマンティック通信は将来の無線ネットワークにとって有望である。
非常に限られたチャネル容量でセマンティックトークンをコンパクトにすることができる。
本稿では,ロバストなセマンティックリカバリのためのトークン符号化フレームワーク(TokCode)を提案する。
- 参考スコア(独自算出の注目度): 45.01579926268814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token-based semantic communication is promising for future wireless networks, as it can compact semantic tokens under very limited channel capacity. However, harsh wireless channels often cause missing tokens, leading to severe distortion that prevents reliable semantic recovery at the receiver. In this article, we propose a token encoding framework for robust semantic recovery (TokCode), which incurs no additional transmission overhead and supports plug-and-play deployment. For efficient token encoder optimization, we develop a sentence-semantic-guided foundation model adaptation algorithm (SFMA) that avoids costly end-to-end training. Based on simulation results on prompt-based generative image transmission, TokCode mitigates semantic distortion and can approach the performance upper-bound, even under harsh channels where 40% to 60% of tokens are randomly lost.
- Abstract(参考訳): トークンベースのセマンティック通信は、非常に限られたチャネル容量でセマンティックトークンをコンパクト化できるので、将来の無線ネットワークにとって有望である。
しかし、過酷な無線チャネルは、しばしばトークンの欠落を引き起こすため、受信側で信頼性の高いセマンティックリカバリを妨げてしまう。
本稿では,ロバストなセマンティックリカバリ(TokCode)のためのトークン符号化フレームワークを提案する。
効率的なトークンエンコーダ最適化のために,コストのかかるエンドツーエンドトレーニングを回避する文意味誘導基礎モデル適応アルゴリズム (SFMA) を開発した。
プロンプトベースの生成画像伝送のシミュレーション結果に基づいて、TokCodeは意味的歪みを軽減し、トークンの40%から60%がランダムに失われる厳しいチャネルであっても、パフォーマンス上のバウンドにアプローチすることができる。
関連論文リスト
- Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - Semantic Codebooks as Effective Priors for Neural Speech Compression [3.4074476957610074]
SemDACはセマンティック・アウェアなニューラル・オーディオであり、セマンティック・コードブックを音声圧縮の効果的な先行要素として活用する。
FiLM条件付きデコーダは、セマンティックトークンに条件付きオーディオを再構成し、音響コードブックの使用効率を向上させる。
論文 参考訳(メタデータ) (2025-12-25T12:49:41Z) - Conditional Denoising Diffusion Autoencoders for Wireless Semantic Communications [10.896931510442514]
無線セムコムシステムは,低次元のセマンティクスから高次元の地上構造へのマッピングを学習することを目的としている。
セマンティックトランスミッタのニューラルエンコーダは、ハイレベルセマンティクスを抽出する。
セマンティックレシーバにおける条件拡散モデル(CDiff)は、信号空間のデノイングにソース分布を利用する。
提案したデコーダモデルが地中構造データの一貫した推定器であることを解析的に証明した。
論文 参考訳(メタデータ) (2025-09-26T12:46:21Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding [12.05169114091718]
DiffSoundStreamは、非ストリーミングシナリオにおける音声トークン化の効率を改善するソリューションである。
実験によると、毎秒50トークンのDiffSoundStreamは標準のSoundStreamモデルと同等の音声品質を実現している。
論文 参考訳(メタデータ) (2025-06-27T16:23:07Z) - Transformer-based Joint Source Channel Coding for Textual Semantic
Communication [23.431590618978948]
Space-Air-Ground-Sea統合ネットワークコールにより、ジャミングに対するより堅牢でセキュアな送信技術が要求される。
本稿では,文のモデル化とエンコードに先進的な自然言語処理技術を利用する,ロバスト伝送のためのテキスト意味伝達フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-23T08:42:05Z) - Is Semantic Communications Secure? A Tale of Multi-Domain Adversarial
Attacks [70.51799606279883]
セマンティック・コミュニケーションのためのディープ・ニューラル・ネットワーク(DNN)に対するテスト・タイム・アタックを導入する。
再建損失が低い場合でも,伝達情報のセマンティクスを変更可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:13:22Z) - Refined Semantic Enhancement towards Frequency Diffusion for Video
Captioning [29.617527535279574]
ビデオキャプションは、与えられたビデオを正確に記述した自然言語文を生成することを目的としている。
既存の方法では、エンコードフェーズにおけるよりリッチな視覚表現を探索したり、復号能力を向上させることで、良好な生成が得られる。
頻繁なトークンの言語表現を常に知覚するキャプションモデルであるRSFD(Refined Semantic enhancement Method)を導入する。
論文 参考訳(メタデータ) (2022-11-28T05:45:17Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。