論文の概要: VideoQA-SC: Adaptive Semantic Communication for Video Question Answering
- arxiv url: http://arxiv.org/abs/2406.18538v1
- Date: Fri, 17 May 2024 06:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:12:00.619716
- Title: VideoQA-SC: Adaptive Semantic Communication for Video Question Answering
- Title(参考訳): VideoQA-SC:ビデオ質問応答のための適応型セマンティックコミュニケーション
- Authors: Jiangyuan Guo, Wei Chen, Yuxuan Sun, Jialong Xu, Bo Ai,
- Abstract要約: 本稿では,ビデオQA-SCと呼ばれるビデオ質問応答タスクのためのエンドツーエンドのSCシステムを提案する。
我々のゴールは、ノイズや失速する無線チャンネル上のビデオセマンティクスに基づいて、ビデオQAタスクを直接実行することである。
ビデオアプリケーションにおけるタスク指向のSCシステム設計の可能性を示す。
- 参考スコア(独自算出の注目度): 21.0279034601774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although semantic communication (SC) has shown its potential in efficiently transmitting multi-modal data such as text, speeches and images, SC for videos has focused primarily on pixel-level reconstruction. However, these SC systems may be suboptimal for downstream intelligent tasks. Moreover, SC systems without pixel-level video reconstruction present advantages by achieving higher bandwidth efficiency and real-time performance of various intelligent tasks. The difficulty in such system design lies in the extraction of task-related compact semantic representations and their accurate delivery over noisy channels. In this paper, we propose an end-to-end SC system for video question answering (VideoQA) tasks called VideoQA-SC. Our goal is to accomplish VideoQA tasks directly based on video semantics over noisy or fading wireless channels, bypassing the need for video reconstruction at the receiver. To this end, we develop a spatiotemporal semantic encoder for effective video semantic extraction, and a learning-based bandwidth-adaptive deep joint source-channel coding (DJSCC) scheme for efficient and robust video semantic transmission. Experiments demonstrate that VideoQA-SC outperforms traditional and advanced DJSCC-based SC systems that rely on video reconstruction at the receiver under a wide range of channel conditions and bandwidth constraints. In particular, when the signal-to-noise ratio is low, VideoQA-SC can improve the answer accuracy by 5.17% while saving almost 99.5% of the bandwidth at the same time, compared with the advanced DJSCC-based SC system. Our results show the great potential of task-oriented SC system design for video applications.
- Abstract(参考訳): セマンティック・コミュニケーション(SC)は,テキスト,音声,画像などのマルチモーダルデータを効率的に伝送する可能性を示しているが,ビデオ用SCは主にピクセルレベルの再構成に焦点を当てている。
しかし、これらのSCシステムは下流のインテリジェントなタスクに最適であるかもしれない。
さらに、画素レベルの映像再構成のないSCシステムは、様々な知的タスクの高帯域効率とリアルタイム性能を実現することにより、利点を示す。
このようなシステム設計の難しさは、タスク関連のコンパクトなセマンティック表現の抽出と、ノイズの多いチャネル上での正確な配信にある。
本稿では,ビデオQA-SCと呼ばれるビデオ質問応答(VideoQA)タスクのためのエンドツーエンドのSCシステムを提案する。
我々のゴールは、受信機におけるビデオ再構成の必要性を回避し、ノイズや失速する無線チャンネル上のビデオセマンティクスに基づいて、ビデオQAタスクを直接実行することである。
そこで本研究では,効率的なビデオ意味抽出のための時空間意味エンコーダと,効率的かつ堅牢なビデオ意味伝達のための学習に基づく帯域幅適応型ディープジョイント・ソース・チャネル符号化(DJSCC)方式を提案する。
実験により、TVQA-SCは、幅広いチャンネル条件と帯域幅制約の下で、受信機での映像再構成に依存する従来のDJSCCベースのSCシステムよりも優れていることが示された。
特に、信号対雑音比が低い場合、ビデオQA-SCは、高度なDJSCCベースのSCシステムと比較して、ほぼ99.5%の帯域を同時に節約しながら、解答精度を5.17%向上させることができる。
ビデオアプリケーションにおけるタスク指向のSCシステム設計の可能性を示す。
関連論文リスト
- Object-Attribute-Relation Representation based Video Semantic Communication [35.87160453583808]
我々は,低ビットレート符号化を実現するためのビデオのセマンティックフレームワークとして,OAR(Object-Atribute-Relation)を導入する。
我々は低ビットレート表現と生成ビデオ再構成の両方にOARシーケンスを利用する。
トラヒック監視ビデオデータセットに関する実験は,映像伝送性能の観点から,我々のアプローチの有効性を評価した。
論文 参考訳(メタデータ) (2024-06-15T02:19:31Z) - Attention-based UNet enabled Lightweight Image Semantic Communication
System over Internet of Things [4.62215026195301]
モノのインターネット(IoT)デバイス上に展開される軽量な画像意味コミュニケーションシステムの問題について検討する。
本稿では,低計算複雑性と小型モデルサイズを実現する軽量画像意味コミュニケーション (LSSC) システムを提案する。
論文 参考訳(メタデータ) (2024-01-14T16:46:50Z) - Cross-layer scheme for low latency multiple description video streaming
over Vehicular Ad-hoc NETworks (VANETs) [2.2124180701409233]
HEVC標準はリアルタイムビデオストリーミングに非常に有望だ。
新しい最先端のビデオ符号化(HEVC)標準は、リアルタイムビデオストリーミングに非常に有望である。
本稿では,車載通信における映像品質を向上させるために,独自のクロスレイヤーシステムを提案する。
論文 参考訳(メタデータ) (2023-11-05T14:34:58Z) - Communication-Efficient Framework for Distributed Image Semantic
Wireless Transmission [68.69108124451263]
IoTデバイスを用いたマルチタスク分散画像伝送のためのFederated Learning-based semantic communication (FLSC)フレームワーク。
各リンクは階層型視覚変換器(HVT)ベースの抽出器とタスク適応トランスレータで構成される。
チャネル状態情報に基づく多重出力多重出力伝送モジュール。
論文 参考訳(メタデータ) (2023-08-07T16:32:14Z) - Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文 参考訳(メタデータ) (2023-03-30T08:51:49Z) - Wireless Deep Video Semantic Transmission [14.071114007641313]
本稿では,無線チャネル上でのエンドツーエンドビデオ伝送を実現するための,高効率なディープ・ジョイント・ソース・チャネル符号化手法を提案する。
我々のフレームワークはディープビデオセマンティックトランスミッション (DVST) という名前で収集される。
論文 参考訳(メタデータ) (2022-05-26T03:26:43Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - DeepWiVe: Deep-Learning-Aided Wireless Video Transmission [0.0]
We present DeepWiVe, the first-ever end-to-end joint source-channel coding (JSCC) video transmission scheme。
ディープニューラルネットワーク(DNN)を使用して、ビデオ信号をチャネルシンボルにマッピングし、ビデオ圧縮、チャネルコーディング、変調ステップを1つのニューラルトランスフォーメーションに組み合わせます。
この結果から,DeepWiVeは従来の分離方式のディジタル通信方式で普及している崖効果を克服できることがわかった。
論文 参考訳(メタデータ) (2021-11-25T11:34:24Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。