論文の概要: Generative Video Semantic Communication via Multimodal Semantic Fusion with Large Model
- arxiv url: http://arxiv.org/abs/2502.13838v1
- Date: Wed, 19 Feb 2025 15:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:58:43.495528
- Title: Generative Video Semantic Communication via Multimodal Semantic Fusion with Large Model
- Title(参考訳): 大規模モデルを用いた多モードセマンティックフュージョンによるビデオセマンティックコミュニケーション
- Authors: Hang Yin, Li Qiao, Yu Ma, Shuo Sun, Kan Li, Zhen Gao, Dusit Niyato,
- Abstract要約: 本稿では,高品質な映像再構成を実現するために,意味情報を抽出し,送信するスケーラブルなビデオ意味コミュニケーションフレームワークを提案する。
具体的には、送信機では、それぞれテキストと構造的意味論として機能するソースビデオから記述と他の条件信号を抽出する。
受信機では、拡散に基づくGenAI大モデルを用いて、ビデオの再構成のために複数のモーダルのセマンティクスを融合させる。
- 参考スコア(独自算出の注目度): 55.71885688565501
- License:
- Abstract: Despite significant advancements in traditional syntactic communications based on Shannon's theory, these methods struggle to meet the requirements of 6G immersive communications, especially under challenging transmission conditions. With the development of generative artificial intelligence (GenAI), progress has been made in reconstructing videos using high-level semantic information. In this paper, we propose a scalable generative video semantic communication framework that extracts and transmits semantic information to achieve high-quality video reconstruction. Specifically, at the transmitter, description and other condition signals (e.g., first frame, sketches, etc.) are extracted from the source video, functioning as text and structural semantics, respectively. At the receiver, the diffusion-based GenAI large models are utilized to fuse the semantics of the multiple modalities for reconstructing the video. Simulation results demonstrate that, at an ultra-low channel bandwidth ratio (CBR), our scheme effectively captures semantic information to reconstruct videos aligned with human perception under different signal-to-noise ratios. Notably, the proposed ``First Frame+Desc." scheme consistently achieves CLIP score exceeding 0.92 at CBR = 0.0057 for SNR > 0 dB. This demonstrates its robust performance even under low SNR conditions.
- Abstract(参考訳): シャノンの理論に基づく従来の統語通信の大幅な進歩にもかかわらず、これらの手法は6Gの没入型通信の要求を満たすのに苦慮している。
生成人工知能(GenAI)の開発により,高レベルな意味情報を用いた映像の再構成が進展している。
本稿では,高品質な映像再構成を実現するために,意味情報を抽出し,送信するスケーラブルな映像意味コミュニケーションフレームワークを提案する。
具体的には、送信機では、それぞれテキストと構造的意味論として機能し、ソースビデオから記述と他の条件信号(例えば、第1フレーム、スケッチ等)を抽出する。
受信機では、拡散に基づくGenAI大モデルを用いて、ビデオの再構成のために複数のモーダルのセマンティクスを融合させる。
シミュレーションの結果,超低チャネル帯域幅比 (CBR) において,信号対雑音比の異なる人間の知覚に適合した映像を効果的に再構成するための意味情報を抽出できることが示唆された。
特に、 ``First Frame+Desc が提案されている。
このスキームは、SNR > 0 dB に対して CBR = 0.0057 において、CLIP スコアが 0.92 を超えることを一貫して達成している。
これは低SNR条件下でも頑健な性能を示す。
関連論文リスト
- Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Semantic Successive Refinement: A Generative AI-aided Semantic Communication Framework [27.524671767937512]
本稿では,単一ユーザシナリオを対象とした新しいジェネレーティブAIセマンティックコミュニケーション(GSC)システムを提案する。
送信側では、Swin Transformerをベースとしたジョイントソースチャネル符号化機構を用いて、効率的なセマンティック特徴抽出を行う。
受信側では、高度な拡散モデル(DM)が劣化した信号から高品質な画像を再構成し、知覚の詳細を高める。
論文 参考訳(メタデータ) (2024-07-31T06:08:51Z) - Latency-Aware Generative Semantic Communications with Pre-Trained Diffusion Models [43.27015039765803]
我々は,事前学習した生成モデルを用いた遅延認識型セマンティックコミュニケーションフレームワークを開発した。
我々は,超低レート,低レイテンシ,チャネル適応型セマンティック通信を実証する。
論文 参考訳(メタデータ) (2024-03-25T23:04:09Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Generative Semantic Communication: Diffusion Models Beyond Bit Recovery [19.088596386865106]
セマンティックコミュニケーションのための新しい生成拡散誘導フレームワークを提案する。
我々は,高度に圧縮された意味情報のみを送信することで帯域幅を削減した。
以上の結果から,非常にノイズの多い条件下でも,物体,位置,深さが認識可能であることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-07T10:36:36Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。