Fugu-MT 論文翻訳(概要): Language-Oriented Communication with Semantic Coding and Knowledge Distillation for Text-to-Image Generation

論文の概要: Language-Oriented Communication with Semantic Coding and Knowledge Distillation for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2309.11127v1
Date: Wed, 20 Sep 2023 08:19:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-21 12:56:38.714293
Title: Language-Oriented Communication with Semantic Coding and Knowledge Distillation for Text-to-Image Generation
Title（参考訳）: テキスト・画像生成のための意味的符号化と知識蒸留による言語指向コミュニケーション
Authors: Hyelin Nam, Jihong Park, Jinho Choi, Mehdi Bennis, and Seong-Lyun Kim
Abstract要約: 我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。 LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。 1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
参考スコア（独自算出の注目度）: 53.97155730116369
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: By integrating recent advances in large language models (LLMs) and generative models into the emerging semantic communication (SC) paradigm, in this article we put forward to a novel framework of language-oriented semantic communication (LSC). In LSC, machines communicate using human language messages that can be interpreted and manipulated via natural language processing (NLP) techniques for SC efficiency. To demonstrate LSC's potential, we introduce three innovative algorithms: 1) semantic source coding (SSC) which compresses a text prompt into its key head words capturing the prompt's syntactic essence while maintaining their appearance order to keep the prompt's context; 2) semantic channel coding (SCC) that improves robustness against errors by substituting head words with their lenghthier synonyms; and 3) semantic knowledge distillation (SKD) that produces listener-customized prompts via in-context learning the listener's language style. In a communication task for progressive text-to-image generation, the proposed methods achieve higher perceptual similarities with fewer transmissions while enhancing robustness in noisy communication channels.
Abstract（参考訳）: 大規模言語モデル(LLM)と生成モデルにおける最近の進歩を新たな意味コミュニケーション(SC)パラダイムに統合することにより,言語指向意味コミュニケーション(LSC)の新たな枠組みを推し進める。 LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。 LSCの可能性を示すために,3つの革新的なアルゴリズムを紹介する。 1) テキストプロンプトをキーヘッドワードに圧縮する意味的ソースコーディング(ssc)は,プロンプトのコンテキストを維持するために,その外観を維持しつつ,プロンプトの構文本質をキャプチャする。 2) 意味チャネル符号化 (SCC) は, 単語の頭字語を同義語に置き換えることで, 誤りに対する堅牢性を向上させる。 3)リスナーの言語スタイルを学習することで,リスナーにカスタマイズされたプロンプトを生成する意味知識蒸留(SKD)。プログレッシブテキスト・画像生成のための通信タスクにおいて,提案手法はノイズの多い通信チャネルにおいて堅牢性を高めつつ,より少ない伝送で知覚的類似性を向上する。

関連論文リスト

Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。 BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文参考訳（メタデータ） (2024-11-06T12:45:46Z)
Generative Semantic Communication for Text-to-Speech Synthesis [39.8799066368712]
本稿では,テキスト音声合成のための新しい意味コミュニケーションフレームワークを開発する。我々はトランスフォーマーエンコーダと拡散モデルを用いて,重要な通信オーバーヘッドを発生させることなく,効率的なセマンティックコーディングを実現する。
論文参考訳（メタデータ） (2024-10-04T14:18:31Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-07T14:32:36Z)
Visual Language Model based Cross-modal Semantic Communication Systems [42.321208020228894]
本稿では,視覚言語モデルに基づくクロスモーダル・セマンティックコミュニケーションシステムを提案する。 VLM−CSCは、3つの新規成分を含む。実験により, CSCシステムの有効性, 適応性, 堅牢性を検証した。
論文参考訳（メタデータ） (2024-05-06T08:59:16Z)
Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model [11.160802635050866]
Cued Speech (CS) は、唇読みと手書きコードを統合する高度な視覚音声符号化システムである。既存のCS生成手法は脆弱であり、テンプレートベースの統計モデルにより性能が低下する傾向にある。我々はGross-prompted Diffusion-based CS Gesture Generation framework(GrossDiff)を提案する。
論文参考訳（メタデータ） (2024-04-30T05:54:40Z)
Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文参考訳（メタデータ） (2023-12-15T07:46:35Z)
Generative AI-aided Joint Training-free Secure Semantic Communications via Multi-modal Prompts [89.04751776308656]
本稿では,多モデルプロンプトを用いたGAI支援型SemComシステムを提案する。セキュリティ上の懸念に応えて、フレンドリーなジャマーによって支援される隠蔽通信の応用を紹介する。
論文参考訳（メタデータ） (2023-09-05T23:24:56Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。