論文の概要: Object-Attribute-Relation Representation based Video Semantic Communication
- arxiv url: http://arxiv.org/abs/2406.10469v1
- Date: Sat, 15 Jun 2024 02:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:22:43.641971
- Title: Object-Attribute-Relation Representation based Video Semantic Communication
- Title(参考訳): オブジェクト属性関係表現に基づくビデオセマンティックコミュニケーション
- Authors: Qiyuan Du, Yiping Duan, Qianqian Yang, Xiaoming Tao, Mérouane Debbah,
- Abstract要約: 我々は,低ビットレート符号化を実現するためのビデオのセマンティックフレームワークとして,OAR(Object-Atribute-Relation)を導入する。
我々は低ビットレート表現と生成ビデオ再構成の両方にOARシーケンスを利用する。
トラヒック監視ビデオデータセットに関する実験は,映像伝送性能の観点から,我々のアプローチの有効性を評価した。
- 参考スコア(独自算出の注目度): 35.87160453583808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of multimedia data volume, there is an increasing need for efficient video transmission in applications such as virtual reality and future video streaming services. Semantic communication is emerging as a vital technique for ensuring efficient and reliable transmission in low-bandwidth, high-noise settings. However, most current approaches focus on joint source-channel coding (JSCC) that depends on end-to-end training. These methods often lack an interpretable semantic representation and struggle with adaptability to various downstream tasks. In this paper, we introduce the use of object-attribute-relation (OAR) as a semantic framework for videos to facilitate low bit-rate coding and enhance the JSCC process for more effective video transmission. We utilize OAR sequences for both low bit-rate representation and generative video reconstruction. Additionally, we incorporate OAR into the image JSCC model to prioritize communication resources for areas more critical to downstream tasks. Our experiments on traffic surveillance video datasets assess the effectiveness of our approach in terms of video transmission performance. The empirical findings demonstrate that our OAR-based video coding method not only outperforms H.265 coding at lower bit-rates but also synergizes with JSCC to deliver robust and efficient video transmission.
- Abstract(参考訳): マルチメディアデータボリュームの急速な増加に伴い、バーチャルリアリティや将来のビデオストリーミングサービスといったアプリケーションにおいて、効率的なビデオ伝送の必要性が高まっている。
セマンティック通信は,低帯域幅,高雑音環境において,効率的かつ信頼性の高い伝送を実現するための重要な技術として浮上している。
しかし、現在のほとんどのアプローチは、エンドツーエンドのトレーニングに依存するジョイントソースチャネルコーディング(JSCC)に焦点を当てている。
これらの手法は、しばしば解釈可能な意味表現を欠き、様々な下流タスクへの適応性に苦慮する。
本稿では,低ビットレート符号化を実現するためのセマンティックフレームワークとして,OAR(Object-Atribute-Relation)を導入し,より効率的な映像伝送のためのJSCCプロセスを強化する。
我々は低ビットレート表現と生成ビデオ再構成の両方にOARシーケンスを利用する。
さらに、OARをイメージJSCCモデルに組み込んで、下流タスクにとってより重要な領域の通信資源を優先順位付けする。
トラヒック監視ビデオデータセットに関する実験は,映像伝送性能の観点から,我々のアプローチの有効性を評価した。
その結果,OARに基づくビデオ符号化方式は,低ビットレートでのH.265符号化に勝るだけでなく,JSCCと相乗して堅牢で効率的な映像伝送を実現していることがわかった。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - VideoQA-SC: Adaptive Semantic Communication for Video Question Answering [21.0279034601774]
本稿では,ビデオQA-SCと呼ばれるビデオ質問応答タスクのためのエンドツーエンドのSCシステムを提案する。
我々のゴールは、ノイズや失速する無線チャンネル上のビデオセマンティクスに基づいて、ビデオQAタスクを直接実行することである。
ビデオアプリケーションにおけるタスク指向のSCシステム設計の可能性を示す。
論文 参考訳(メタデータ) (2024-05-17T06:11:10Z) - Cross-layer scheme for low latency multiple description video streaming
over Vehicular Ad-hoc NETworks (VANETs) [2.2124180701409233]
HEVC標準はリアルタイムビデオストリーミングに非常に有望だ。
新しい最先端のビデオ符号化(HEVC)標準は、リアルタイムビデオストリーミングに非常に有望である。
本稿では,車載通信における映像品質を向上させるために,独自のクロスレイヤーシステムを提案する。
論文 参考訳(メタデータ) (2023-11-05T14:34:58Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Toward Adaptive Semantic Communications: Efficient Data Transmission via
Online Learned Nonlinear Transform Source-Channel Coding [11.101344530143303]
深層学習モデルの過剰適合性を利用したオンライン学習型ジョイントソースとチャネルコーディング手法を提案する。
具体的には,市販の事前訓練型モデルを軽量なオンライン方式で展開し,ソースデータと環境領域の分散シフトに適応させる。
私たちはオーバーフィットの概念を極端に捉え、モデルや表現を個々のデータやチャネル状態インスタンスに適応させる実装フレンドリな一連のメソッドを提案します。
論文 参考訳(メタデータ) (2022-11-08T16:00:27Z) - Wireless Deep Video Semantic Transmission [14.071114007641313]
本稿では,無線チャネル上でのエンドツーエンドビデオ伝送を実現するための,高効率なディープ・ジョイント・ソース・チャネル符号化手法を提案する。
我々のフレームワークはディープビデオセマンティックトランスミッション (DVST) という名前で収集される。
論文 参考訳(メタデータ) (2022-05-26T03:26:43Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。