論文の概要: ChronoSC: Task-Oriented Semantic Communication via Temporal-to-Color Encoding
- arxiv url: http://arxiv.org/abs/2605.16388v1
- Date: Mon, 11 May 2026 17:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.314197
- Title: ChronoSC: Task-Oriented Semantic Communication via Temporal-to-Color Encoding
- Title(参考訳): ChronoSC: 時間-色間符号化によるタスク指向セマンティックコミュニケーション
- Authors: Phuc H. Nguyen, Trung T. Nguyen, Quy N. Duong, Van-Dinh Nguyen,
- Abstract要約: ビデオ質問(VideoQA)のためのタスク指向意味コミュニケーションフレームワークを提案する。
Chrono-SC Stackingは、時間的ビデオダイナミクスを1つの静的イメージにエンコードし、送信前に極端な時間的圧縮を可能にする。
CLEVRデータセットの実験では、Chrono-SCは生のビデオ伝送に比べて192倍の帯域幅削減を実現している。
- 参考スコア(独自算出の注目度): 6.67386396580815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic communication (SC) aims to reduce transmission overhead by conveying task-relevant information rather than raw data. However, existing SC approaches for video largely focus on pixel-level reconstruction or rely on complex spatiotemporal pipelines, leading to excessive bandwidth usage and latency that are unsuitable for low-resource deployments. In this paper, we propose ChronoSC, a task-oriented semantic communication framework for Video Question Answering (VideoQA). ChronoSC introduces Chrono-Color Stacking, a lightweight and lossless projection scheme that encodes temporal video dynamics into a single static image, enabling extreme temporal compression before transmission. This compact semantic representation is transmitted using a lightweight Deep Joint Source-Channel Coding (DeepJSCC) transceiver and explicitly reconstructed at the receiver. Unlike latent-space methods, explicit visual reconstruction enables the direct reuse of pre-trained vision-language models; specifically, a pre-trained BLIP model is employed to infer answers from noisy, reconstructed chrono-images. Experiments on the CLEVRER dataset show that ChronoSC achieves up to 192 times bandwidth reduction compared to raw video transmission while maintaining high VideoQA accuracy.
- Abstract(参考訳): 意味コミュニケーション(SC)は、生データではなくタスク関連情報を伝達することで、送信オーバーヘッドを低減することを目的としている。
しかし、ビデオの既存のSCアプローチは、主にピクセルレベルの再構築や複雑な時空間パイプラインに依存しており、低リソースのデプロイメントには適さない帯域幅の使用と遅延につながる。
本稿では,ビデオ質問応答(Video Question Answering, VideoQA)のためのタスク指向セマンティックコミュニケーションフレームワークであるChronoSCを提案する。
ChronoSCがChrono-Color Stackingを導入した。これは軽量でロスレスなプロジェクションスキームで、時間的ビデオのダイナミクスを単一の静的イメージにエンコードし、送信前に極端な時間的圧縮を可能にする。
このコンパクトな意味表現は、軽量のDeep Joint Source-Channel Coding (DeepJSCC) トランスシーバを用いて送信され、受信側で明示的に再構成される。
潜在空間法とは異なり、明示的な視覚再構成は事前学習された視覚言語モデルの直接再利用を可能にする。
CLEVRERデータセットの実験では、ChronoSCはビデオQAの精度を維持しながら生のビデオ伝送に比べて192倍の帯域幅削減を実現している。
関連論文リスト
- Context Video Semantic Transmission with Variable Length and Rate Coding over MIMO Channels [49.624608869195065]
無線ビデオ伝送のためのコンテキストビデオセマンティックトランスミッション(CVST)フレームワークを提案する。
我々は、特徴群と多重入力多重出力(MIMO)サブチャネルの関係を明確に定式化するために、コンテキストチャネル相関マップを学習する。
近年の無線ビデオ・セマンティック・コミュニケーション・アプローチにおいて,標準化された分離符号化方式に対して性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-12-23T10:48:43Z) - WVSC: Wireless Video Semantic Communication with Multi-frame Compensation [56.63352157833874]
既存の無線ビデオ伝送方式は画素レベルで直接映像符号化を行う。
本稿では,WVSCと略される無線ビデオセマンティック通信フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-27T06:27:15Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Object-Attribute-Relation Representation Based Video Semantic Communication [35.87160453583808]
我々は,低ビットレート符号化を実現するためのビデオのセマンティックフレームワークとして,OAR(Object-Atribute-Relation)を導入する。
我々は低ビットレート表現と生成ビデオ再構成の両方にOARシーケンスを利用する。
トラヒック監視ビデオデータセットに関する実験は,映像伝送性能の観点から,我々のアプローチの有効性を評価した。
論文 参考訳(メタデータ) (2024-06-15T02:19:31Z) - VideoQA-SC: Adaptive Semantic Communication for Video Question Answering [21.0279034601774]
本稿では,ビデオ質問応答タスクのためのエンドツーエンドSCシステムであるVideoQA-SCを提案する。
我々のゴールは、ノイズや失速する無線チャンネル上のビデオセマンティクスに基づいて、ビデオQAタスクを直接実行することである。
この結果から,ビデオアプリケーションにおけるSCシステム設計の可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-17T06:11:10Z) - Accelerated Event-Based Feature Detection and Compression for
Surveillance Video Systems [1.5390526524075634]
スパース圧縮表現において時間的冗長性を伝達する新しいシステムを提案する。
我々はADDERと呼ばれるビデオ表現フレームワークを利用して、フレーム化されたビデオを疎結合で非同期な強度サンプルに変換する。
我々の研究は、今後のニューロモルフィックセンサーの道を切り拓き、スパイクニューラルネットワークによる将来の応用に有効である。
論文 参考訳(メタデータ) (2023-12-13T15:30:29Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - GAN-Based Multi-View Video Coding with Spatio-Temporal EPI
Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。
エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。
側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文 参考訳(メタデータ) (2022-05-07T08:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。