論文の概要: Pilot-guided Multimodal Semantic Communication for Audio-Visual Event Localization
- arxiv url: http://arxiv.org/abs/2412.06208v1
- Date: Mon, 09 Dec 2024 04:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:52:46.430317
- Title: Pilot-guided Multimodal Semantic Communication for Audio-Visual Event Localization
- Title(参考訳): パイロット誘導型マルチモーダル・セマンティック・コミュニケーションによる音声・視覚イベント・ローカライゼーション
- Authors: Fei Yu, Zhe Xiang, Nan Che, Zhuoran Zhang, Yuandi Li, Junxiao Xue, Zhiguo Wan,
- Abstract要約: マルチモーダルセマンティックコミュニケーションは通信効率と信頼性を大幅に向上させる。
人工知能、自動運転、スマートホームなど、幅広い分野の応用の見通しがある。
本稿では,音声-視覚イベントのローカライズ作業に適したマルチモーダルセマンティックコミュニケーションのためのパイロット誘導フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.680740822211451
- License:
- Abstract: Multimodal semantic communication, which integrates various data modalities such as text, images, and audio, significantly enhances communication efficiency and reliability. It has broad application prospects in fields such as artificial intelligence, autonomous driving, and smart homes. However, current research primarily relies on analog channels and assumes constant channel states (perfect CSI), which is inadequate for addressing dynamic physical channels and noise in real-world scenarios. Existing methods often focus on single modality tasks and fail to handle multimodal stream data, such as video and audio, and their corresponding tasks. Furthermore, current semantic encoding and decoding modules mainly transmit single modality features, neglecting the need for multimodal semantic enhancement and recognition tasks. To address these challenges, this paper proposes a pilot-guided framework for multimodal semantic communication specifically tailored for audio-visual event localization tasks. This framework utilizes digital pilot codes and channel modules to guide the state of analog channels in real-wold scenarios and designs Euler-based multimodal semantic encoding and decoding that consider time-frequency characteristics based on dynamic channel state. This approach effectively handles multimodal stream source data, especially for audio-visual event localization tasks. Extensive numerical experiments demonstrate the robustness of the proposed framework in channel changes and its support for various communication scenarios. The experimental results show that the framework outperforms existing benchmark methods in terms of Signal-to-Noise Ratio (SNR), highlighting its advantage in semantic communication quality.
- Abstract(参考訳): テキスト、画像、音声などの様々なデータモダリティを統合するマルチモーダルセマンティックコミュニケーションは、通信効率と信頼性を大幅に向上させる。
人工知能、自動運転、スマートホームなど、幅広い分野の応用の見通しがある。
しかし、現在の研究は主にアナログチャネルに依存しており、現実のシナリオにおける動的な物理チャネルやノイズに対処するには不十分な一定のチャネル状態(完全なCSI)を前提としている。
既存の手法では、単一のモダリティタスクに重点を置いており、ビデオやオーディオなどのマルチモーダルストリームデータの処理に失敗することが多い。
さらに、現在のセマンティックエンコーディングおよびデコードモジュールは、主に、マルチモーダルセマンティックエンハンスメントおよび認識タスクの必要性を無視して、単一のモダリティ特徴を伝達する。
これらの課題に対処するため,本稿では,音声-視覚イベントのローカライゼーションタスクに適したマルチモーダルなセマンティックコミュニケーションのためのパイロット誘導フレームワークを提案する。
このフレームワークは、デジタルパイロットコードとチャネルモジュールを使用して、実戦シナリオにおけるアナログチャネルの状態のガイドを行い、動的チャネル状態に基づく時間周波数特性を考慮したオイラーベースのマルチモーダルセマンティックエンコーディングとデコーディングを設計する。
このアプローチは、特に音声-視覚イベントのローカライゼーションタスクにおいて、マルチモーダルストリームソースデータを効果的に処理する。
大規模な数値実験は、チャネル変更における提案されたフレームワークの堅牢性とその様々な通信シナリオのサポートを実証する。
実験の結果,このフレームワークはSNR(Signal-to-Noise Ratio)で既存のベンチマーク手法よりも優れており,セマンティック通信品質の優位性を強調している。
関連論文リスト
- STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking [8.238662377845142]
本稿では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。
AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-08T12:15:17Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Communication-Efficient Framework for Distributed Image Semantic
Wireless Transmission [68.69108124451263]
IoTデバイスを用いたマルチタスク分散画像伝送のためのFederated Learning-based semantic communication (FLSC)フレームワーク。
各リンクは階層型視覚変換器(HVT)ベースの抽出器とタスク適応トランスレータで構成される。
チャネル状態情報に基づく多重出力多重出力伝送モジュール。
論文 参考訳(メタデータ) (2023-08-07T16:32:14Z) - Rate-Adaptive Coding Mechanism for Semantic Communications With
Multi-Modal Data [23.597759255020296]
本稿では,従来のチャネルエンコーダ/デコーダを組み込んだ分散マルチモーダルセマンティック通信フレームワークを提案する。
様々な種類のマルチモーダルなセマンティックタスクに対して、一般的なレート適応型符号化機構を確立する。
シミュレーションの結果,提案手法は従来のコミュニケーションシステムと既存のセマンティック通信システムより優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T07:31:37Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - One-to-Many Semantic Communication Systems: Design, Implementation,
Performance Evaluation [35.21413988605204]
MR_DeepSCと呼ばれる一対一のセマンティック通信システムを提案する。
異なるユーザに対するセマンティック機能を活用することで、異なるユーザを区別するためにセマンティック認識が構築される。
提案したMR_DeepSCはBLEUスコアで最高の性能が得られる。
論文 参考訳(メタデータ) (2022-09-20T02:48:34Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。