論文の概要: MERIT: Multi-domain Efficient RAW Image Translation
- arxiv url: http://arxiv.org/abs/2603.20836v1
- Date: Sat, 21 Mar 2026 14:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.110838
- Title: MERIT: Multi-domain Efficient RAW Image Translation
- Title(参考訳): MERIT:マルチドメイン効率的なRAW画像変換
- Authors: Wenjun Huang, Shenghao Fu, Yian Jin, Yang Ni, Ziteng Cui, Hanning Chen, Yirui He, Yezi Liu, Sanggeon Yun, SungHeon Jeong, Ryozo Masukawa, William Youngwoo Chung, Mohsen Imani,
- Abstract要約: MERITはマルチドメインRAW画像変換のための最初の統一フレームワークである。
マルチドメインRAW画像変換に適した最初のデータセットであるMDRAWを紹介する。
- 参考スコア(独自算出の注目度): 18.549216758780627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RAW images captured by different camera sensors exhibit substantial domain shifts due to varying spectral responses, noise characteristics, and tone behaviors, complicating their direct use in downstream computer vision tasks. Prior methods address this problem by training domain-specific RAW-to-RAW translators for each source-target pair, but such approaches do not scale to real-world scenarios involving multiple types of commercial cameras. In this work, we introduce MERIT, the first unified framework for multi-domain RAW image translation, which leverages a single model to perform translations across arbitrary camera domains. To address domain-specific noise discrepancies, we propose a sensor-aware noise modeling loss that explicitly aligns the signal-dependent noise statistics of the generated images with those of the target domain. We further enhance the generator with a conditional multi-scale large kernel attention module for improved context and sensor-aware feature modeling. To facilitate standardized evaluation, we introduce MDRAW, the first dataset tailored for multi-domain RAW image translation, comprising both paired and unpaired RAW captures from five diverse camera sensors across a wide range of scenes. Extensive experiments demonstrate that MERIT outperforms prior models in both quality (5.56 dB improvement) and scalability (80% reduction in training iterations).
- Abstract(参考訳): 異なるカメラセンサーによって撮影されたRAW画像は、様々なスペクトル応答、ノイズ特性、トーンの振る舞いにより、相当な領域シフトを示し、下流コンピュータビジョンタスクで直接使用される。
従来の手法では、各ソース・ターゲット・ペアに対してドメイン固有のRAW-to-RAWトランスレータをトレーニングすることでこの問題に対処するが、そのような手法は複数の種類の商用カメラを含む現実のシナリオにスケールしない。
本稿では,マルチドメインRAW画像変換のための最初の統合フレームワークであるMERITを紹介する。
領域固有のノイズの相違に対処するため, 生成された画像の信号依存ノイズ統計を対象領域のノイズと明示的に整合させるセンサ対応ノイズモデリング損失を提案する。
さらに,条件付きマルチスケール大型カーネルアテンションモジュールを用いて,コンテキストとセンサ・アウェア機能モデリングを改良したジェネレータを改良する。
標準化された評価を容易にするため,多領域RAW画像変換に適した最初のデータセットであるMDRAWを導入する。
大規模な実験により、MERITは以前のモデルよりも品質(5.56dBの改善)とスケーラビリティ(トレーニングイテレーションの80%の削減)が優れていることが示された。
関連論文リスト
- RDDM: Practicing RAW Domain Diffusion Model for Real-world Image Restoration [27.387521556174104]
本稿では,センサRAWデータから直接フォトリアリスティック画像を復元するエンド・ツー・エンド拡散モデルを提案する。
大規模トレーニングのために既存の sRGB データセットから拡張性のある分解パイプライン RAW LQ-HQ ペアを開発した。
論文 参考訳(メタデータ) (2025-08-26T16:06:17Z) - Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection [12.5655114431805]
単一のドメインでトレーニングされたオブジェクト検出器を複数の見えないドメインに一般化することは、難しい作業である。
ビジョンランゲージモデル(VLM)に基づく拡張技術は有効であることが証明されているが、検出器のバックボーンはVLMの画像エンコーダと同じ構造を持つ必要がある。
単一ドメインの一般化のための言語駆動型デュアルスタイル混合(LDDS)を提案する。
論文 参考訳(メタデータ) (2025-05-12T04:15:27Z) - Adaptive Domain Learning for Cross-domain Image Denoising [57.4030317607274]
本稿では,クロスドメイン画像認識のための適応型ドメイン学習手法を提案する。
私たちは、異なるセンサー(ソースドメイン)からの既存のデータに加えて、新しいセンサー(ターゲットドメイン)からの少量のデータを使用します。
ADLトレーニングスキームは、ターゲットドメインのモデルを微調整するのに有害なソースドメイン内のデータを自動的に削除する。
また,センサ固有の情報(センサタイプとISO)を取り入れ,画像認識のための入力データを理解するための変調モジュールも導入した。
論文 参考訳(メタデータ) (2024-11-03T08:08:26Z) - Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement [71.13353154514418]
低照度画像の強化、特に生ドメインからsRGBドメインへのマッピングのようなクロスドメインタスクは、依然として大きな課題である。
RAWMambaと呼ばれる低照度RAW画像用にカスタマイズされた新しいMambaベースの手法を提案する。
低照度RAW画像の高精細化を図り、復調を施すことにより、高精細化を実現する。
論文 参考訳(メタデータ) (2024-09-11T06:12:03Z) - Multi-Sensor Diffusion-Driven Optical Image Translation for Large-Scale Applications [3.4085512042262374]
本稿では,大規模な低空間分解能画像を,異なる光学センサから高分解能に高分解能に分解する手法を提案する。
提案手法は, 高精度な領域適応, 画像内容の保存, 精度の向上, 特徴表現の両立を実現する。
我々は,0.1884のLearned Perceptual Image Patch similarity (mLPIPS) と45.64のFr'echet Inception Distance (FID) に到達し,比較したすべての手法を表現的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-04-17T10:49:00Z) - Rawformer: Unpaired Raw-to-Raw Translation for Learnable Camera ISPs [53.68932498994655]
本稿では,多種多様なカメラを用いた生と生の翻訳の未ペアリング学習手法を提案する。
特定のカメラが捉えた生画像をターゲットカメラに正確にマッピングし、学習可能なISPを新しい目に見えないカメラに一般化する。
提案手法は,従来の最先端技術と比較して精度が高く,実際のカメラデータセットに優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T16:17:48Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Dual Adversarial Adaptation for Cross-Device Real-World Image
Super-Resolution [114.26933742226115]
異なるデバイスからの画像に基づいて訓練された超高解像度(SR)モデルは、異なる画像パターンを示す可能性がある。
本稿では、DADA(Dual Adversarial Adaptation)という、実世界のSRのための教師なしドメイン適応機構を提案する。
3台のカメラで6台のリアル・トゥ・リアル・アダプティブ・セッティングで実験を行い、既存の最先端のアプローチと比較して優れた性能を実現した。
論文 参考訳(メタデータ) (2022-05-07T02:55:39Z) - Model-Based Image Signal Processors via Learnable Dictionaries [6.766416093990318]
デジタルカメラは画像信号処理装置(ISP)を用いてRAW読み出しをRGB画像に変換する
近年のアプローチでは、RGBからRAWマッピングを推定することで、このギャップを埋めようとしている。
本稿では,学習可能かつ解釈可能なハイブリッド・モデルベースかつデータ駆動型ISPを提案する。
論文 参考訳(メタデータ) (2022-01-10T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。