論文の概要: End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model
- arxiv url: http://arxiv.org/abs/2506.21851v1
- Date: Fri, 27 Jun 2025 02:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.050817
- Title: End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model
- Title(参考訳): チャネルワイドクロスモダリティエントロピーモデルによるRGB-IR合同画像圧縮
- Authors: Haofeng Wang, Fangtao Zhou, Qi Zhang, Zeyuan Chen, Enci Zhang, Zhao Wang, Xiaofeng Huang, Siwei Ma,
- Abstract要約: モダリティの数が増えると、必要なデータストレージと送信コストも2倍になる。
本研究は,RGB-IR画像ペアのための共同圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.52468600966148
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: RGB-IR(RGB-Infrared) image pairs are frequently applied simultaneously in various applications like intelligent surveillance. However, as the number of modalities increases, the required data storage and transmission costs also double. Therefore, efficient RGB-IR data compression is essential. This work proposes a joint compression framework for RGB-IR image pair. Specifically, to fully utilize cross-modality prior information for accurate context probability modeling within and between modalities, we propose a Channel-wise Cross-modality Entropy Model (CCEM). Among CCEM, a Low-frequency Context Extraction Block (LCEB) and a Low-frequency Context Fusion Block (LCFB) are designed for extracting and aggregating the global low-frequency information from both modalities, which assist the model in predicting entropy parameters more accurately. Experimental results demonstrate that our approach outperforms existing RGB-IR image pair and single-modality compression methods on LLVIP and KAIST datasets. For instance, the proposed framework achieves a 23.1% bit rate saving on LLVIP dataset compared to the state-of-the-art RGB-IR image codec presented at CVPR 2022.
- Abstract(参考訳): RGB-IR(RGB-赤外線)イメージペアは、インテリジェント監視のような様々なアプリケーションに同時に適用される。
しかし、モダリティの数が増えるにつれて、必要なデータストレージと送信コストも2倍になる。
したがって、効率的なRGB-IRデータ圧縮が不可欠である。
本研究は,RGB-IR画像ペアのための共同圧縮フレームワークを提案する。
具体的には,Channel-wise Cross-modality Entropy Model (CCEM)を提案する。
CCEMのうち、低周波コンテキスト抽出ブロック(LCEB)と低周波コンテキスト融合ブロック(LCFB)は、両モードからグローバルな低周波情報を抽出・集約するために設計され、エントロピーパラメータをより正確に予測するのに役立つ。
実験により,既存のRGB-IR画像対とLLVIPおよびKAISTデータセットの単一モード圧縮法よりも優れた性能を示した。
例えば、提案フレームワークは、CVPR 2022で提示された最先端のRGB-IR画像コーデックと比較して、LLVIPデータセット上で23.1%のビットレートの削減を実現している。
関連論文リスト
- RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet [0.0]
RGBX-DiffusionDetはDiffusionDetモデルを拡張するオブジェクト検出フレームワークである。
適応型マルチモーダルエンコーダにより、不均一な2Dデータ(X)をRGB画像と融合する。
論文 参考訳(メタデータ) (2025-05-05T11:39:51Z) - UniRGB-IR: A Unified Framework for Visible-Infrared Semantic Tasks via Adapter Tuning [19.510261890672165]
我々は、RGB-IRセマンティックタスクのためのスケーラブルで効率的なフレームワークUniRGB-IRを提案する。
本フレームワークは,視覚変換器(ViT)基礎モデル,マルチモーダル特徴プール(SFI)モジュール,補助特徴プール(SFI)モジュールの3つの主要コンポーネントから構成される。
各種RGB-IRセマンティックタスクの実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-26T12:21:57Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。