論文の概要: Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss
- arxiv url: http://arxiv.org/abs/2404.02731v1
- Date: Wed, 3 Apr 2024 13:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:21:13.376862
- Title: Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss
- Title(参考訳): スイニングトランスとPixel-focus損失によるイベントカメラのデモ
- Authors: Yunfan Lu, Yijie Xu, Wenzong Ma, Weiyu Guo, Hui Xiong,
- Abstract要約: RAW領域処理における画素値の欠落を解消するための,Swin-Transformerベースのバックボーンと画素焦点損失関数を提案する。
提案手法は,マルチスケール処理とスペース・ツー・ディープス技術を利用して,効率の確保と計算複雑性の低減を図る。
- 参考スコア(独自算出の注目度): 17.422153237516767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has highlighted improvements in high-quality imaging guided by event cameras, with most of these efforts concentrating on the RGB domain. However, these advancements frequently neglect the unique challenges introduced by the inherent flaws in the sensor design of event cameras in the RAW domain. Specifically, this sensor design results in the partial loss of pixel values, posing new challenges for RAW domain processes like demosaicing. The challenge intensifies as most research in the RAW domain is based on the premise that each pixel contains a value, making the straightforward adaptation of these methods to event camera demosaicing problematic. To end this, we present a Swin-Transformer-based backbone and a pixel-focus loss function for demosaicing with missing pixel values in RAW domain processing. Our core motivation is to refine a general and widely applicable foundational model from the RGB domain for RAW domain processing, thereby broadening the model's applicability within the entire imaging process. Our method harnesses multi-scale processing and space-to-depth techniques to ensure efficiency and reduce computing complexity. We also proposed the Pixel-focus Loss function for network fine-tuning to improve network convergence based on our discovery of a long-tailed distribution in training loss. Our method has undergone validation on the MIPI Demosaic Challenge dataset, with subsequent analytical experimentation confirming its efficacy. All code and trained models are released here: https://github.com/yunfanLu/ev-demosaic
- Abstract(参考訳): 近年の研究では、RGB領域に集中したイベントカメラによる高品質イメージングの改善が注目されている。
しかしながら、これらの進歩は、RAWドメインにおけるイベントカメラのセンサー設計の固有の欠陥によって引き起こされる固有の課題をしばしば無視する。
具体的には、このセンサ設計により画素値が部分的に失われ、分解などのRAWドメインプロセスに新たな課題が生じる。
RAW領域のほとんどの研究は、各ピクセルが値を含むという前提に基づいており、これらの手法をイベントカメラに簡単に適応させることが問題となる。
そこで本研究では,RAW領域処理における画素値の欠落を解消するための,Swin-Transformerベースのバックボーンと画素焦点損失関数を提案する。
我々のコアモチベーションは、RAWドメイン処理のためのRGBドメインから、汎用的で広く適用可能な基礎モデルを洗練し、画像全体の適用性を拡大することである。
提案手法は,マルチスケール処理とスペース・ツー・ディープス技術を利用して,効率の確保と計算複雑性の低減を図る。
また、ネットワーク微細チューニングのためのPixel-focus Loss関数を提案し、トレーニング損失の長期分布の発見に基づいて、ネットワーク収束を改善する。
提案手法はMIPIデモザイクチャレンジデータセット上で検証を行い,その有効性を確認した。
すべてのコードとトレーニングされたモデルはここでリリースされている。
関連論文リスト
- BSRAW: Improving Blind RAW Image Super-Resolution [63.408484584265985]
RAW領域におけるブラインド画像の超解像化に取り組む。
生センサデータを用いたトレーニングモデルに特化した,現実的な劣化パイプラインを設計する。
私たちのパイプラインでトレーニングしたBSRAWモデルは、リアルタイムRAW画像をスケールアップし、品質を向上させることができます。
論文 参考訳(メタデータ) (2023-12-24T14:17:28Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Overexposure Mask Fusion: Generalizable Reverse ISP Multi-Step
Refinement [10.186389326668305]
本稿では,RAW再建の課題に対する最先端の解決策を提案する。
RGBからベイザーに代えて、パイプラインはRGBからRAWに格下げされ、知覚的損失関数が使えるようになった。
論文 参考訳(メタデータ) (2022-10-20T18:21:41Z) - Reversed Image Signal Processing and RAW Reconstruction. AIM 2022
Challenge Report [109.2135194765743]
本稿では,AIM 2022 Challenge on Reversed Image Signal Processing and RAW Reconstructionを紹介する。
我々は,メタデータを使わずにRGBから生のセンサイメージを回収し,ISP変換を「逆」することを目的としている。
論文 参考訳(メタデータ) (2022-10-20T10:43:53Z) - Learning Enriched Illuminants for Cross and Single Sensor Color
Constancy [182.4997117953705]
ネットワークをトレーニングするためのクロスセンサ自己教師型トレーニングを提案する。
センサに依存しない方法で人工発光体をランダムにサンプリングすることでネットワークを訓練する。
実験により、我々のクロスセンサモデルとシングルセンサーモデルは、他の最先端手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-03-21T15:45:35Z) - RBSRICNN: Raw Burst Super-Resolution through Iterative Convolutional
Neural Network [23.451063587138393]
RBSRICNN(Row Burst Super-Resolution Iterative Convolutional Neural Network)を提案する。
提案したネットワークは、中間SR推定を反復的に洗練することにより最終的な出力を生成する。
定量的および定性的な実験において提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:01:28Z) - Beyond Joint Demosaicking and Denoising: An Image Processing Pipeline
for a Pixel-bin Image Sensor [0.883717274344425]
Pixel binningは、スマートフォンカメラのハードウェア制限に対処する最も顕著なソリューションの1つだと考えられている。
本稿では,新しい学習手法を導入することで,このような画像センサ上でのJDD(Joint Desaicing and Denoising)の課題に対処する。
提案手法は,視覚可能な画像を生成するための2つの新しい知覚損失を含む多項目的関数によって導かれる。
論文 参考訳(メタデータ) (2021-04-19T15:41:28Z) - Learning Camera Miscalibration Detection [83.38916296044394]
本稿では,視覚センサ,特にRGBカメラの誤校正検出を学習するためのデータ駆動型アプローチに焦点を当てた。
コントリビューションには、RGBカメラの誤校正基準と、この基準に基づく新しい半合成データセット生成パイプラインが含まれる。
深層畳み込みニューラルネットワークをトレーニングすることにより、カメラ固有のパラメータの再校正が必要か否かを判断するパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-24T10:32:49Z) - Single-Image HDR Reconstruction by Learning to Reverse the Camera
Pipeline [100.5353614588565]
本稿では,LDR画像形成パイプラインの領域知識をモデルに組み込むことを提案する。
我々は,HDRto-LDR画像形成パイプラインを(1)ダイナミックレンジクリッピング,(2)カメラ応答関数からの非線形マッピング,(3)量子化としてモデル化する。
提案手法は,最先端の単一画像HDR再構成アルゴリズムに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-04-02T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。