論文の概要: Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2309.11127v1
- Date: Wed, 20 Sep 2023 08:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:56:38.714293
- Title: Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のための意味的符号化と知識蒸留による言語指向コミュニケーション
- Authors: Hyelin Nam, Jihong Park, Jinho Choi, Mehdi Bennis, and Seong-Lyun Kim
- Abstract要約: 我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 53.97155730116369
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: By integrating recent advances in large language models (LLMs) and generative
models into the emerging semantic communication (SC) paradigm, in this article
we put forward to a novel framework of language-oriented semantic communication
(LSC). In LSC, machines communicate using human language messages that can be
interpreted and manipulated via natural language processing (NLP) techniques
for SC efficiency. To demonstrate LSC's potential, we introduce three
innovative algorithms: 1) semantic source coding (SSC) which compresses a text
prompt into its key head words capturing the prompt's syntactic essence while
maintaining their appearance order to keep the prompt's context; 2) semantic
channel coding (SCC) that improves robustness against errors by substituting
head words with their lenghthier synonyms; and 3) semantic knowledge
distillation (SKD) that produces listener-customized prompts via in-context
learning the listener's language style. In a communication task for progressive
text-to-image generation, the proposed methods achieve higher perceptual
similarities with fewer transmissions while enhancing robustness in noisy
communication channels.
- Abstract(参考訳): 大規模言語モデル(LLM)と生成モデルにおける最近の進歩を新たな意味コミュニケーション(SC)パラダイムに統合することにより,言語指向意味コミュニケーション(LSC)の新たな枠組みを推し進める。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
LSCの可能性を示すために,3つの革新的なアルゴリズムを紹介する。
1) テキストプロンプトをキーヘッドワードに圧縮する意味的ソースコーディング(ssc)は,プロンプトのコンテキストを維持するために,その外観を維持しつつ,プロンプトの構文本質をキャプチャする。
2) 意味チャネル符号化 (SCC) は, 単語の頭字語を同義語に置き換えることで, 誤りに対する堅牢性を向上させる。
3)リスナーの言語スタイルを学習することで,リスナーにカスタマイズされたプロンプトを生成する意味知識蒸留(SKD)。
プログレッシブテキスト・画像生成のための通信タスクにおいて,提案手法はノイズの多い通信チャネルにおいて堅牢性を高めつつ,より少ない伝送で知覚的類似性を向上する。
関連論文リスト
- Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Generative Semantic Communication for Text-to-Speech Synthesis [39.8799066368712]
本稿では,テキスト音声合成のための新しい意味コミュニケーションフレームワークを開発する。
我々はトランスフォーマーエンコーダと拡散モデルを用いて,重要な通信オーバーヘッドを発生させることなく,効率的なセマンティックコーディングを実現する。
論文 参考訳(メタデータ) (2024-10-04T14:18:31Z) - Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Visual Language Model based Cross-modal Semantic Communication Systems [42.321208020228894]
本稿では,視覚言語モデルに基づくクロスモーダル・セマンティックコミュニケーションシステムを提案する。
VLM−CSCは、3つの新規成分を含む。
実験により, CSCシステムの有効性, 適応性, 堅牢性を検証した。
論文 参考訳(メタデータ) (2024-05-06T08:59:16Z) - Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model [11.160802635050866]
Cued Speech (CS) は、唇読みと手書きコードを統合する高度な視覚音声符号化システムである。
既存のCS生成手法は脆弱であり、テンプレートベースの統計モデルにより性能が低下する傾向にある。
我々はGross-prompted Diffusion-based CS Gesture Generation framework(GrossDiff)を提案する。
論文 参考訳(メタデータ) (2024-04-30T05:54:40Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Generative AI-aided Joint Training-free Secure Semantic Communications
via Multi-modal Prompts [89.04751776308656]
本稿では,多モデルプロンプトを用いたGAI支援型SemComシステムを提案する。
セキュリティ上の懸念に応えて、フレンドリーなジャマーによって支援される隠蔽通信の応用を紹介する。
論文 参考訳(メタデータ) (2023-09-05T23:24:56Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。