論文の概要: Multi-View Learning with Context-Guided Receptance for Image Denoising
- arxiv url: http://arxiv.org/abs/2505.02705v1
- Date: Mon, 05 May 2025 14:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.716569
- Title: Multi-View Learning with Context-Guided Receptance for Image Denoising
- Title(参考訳): コンテクストガイドによるマルチビュー学習による画像認識
- Authors: Binghong Chen, Tingting Chai, Wei Jiang, Yuanrong Xu, Guanglu Zhou, Xiangqian Wu,
- Abstract要約: 写真や自動運転などの低レベルの視覚アプリケーションでは、画像のデノイングが不可欠である。
既存の手法では、現実のシーンで複雑なノイズパターンを識別し、重要な計算資源を消費する。
本研究では、マルチビュー機能統合と効率的なシーケンスモデリングを組み合わせた、コンテキスト誘導型Receptance Weighted Key-Value(M)モデルを提案する。
このモデルは、複数の実世界の画像復号化データセットで検証され、既存の最先端の手法を定量的に上回り、推論時間を最大40%削減する。
- 参考スコア(独自算出の注目度): 18.175992709188026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image denoising is essential in low-level vision applications such as photography and automated driving. Existing methods struggle with distinguishing complex noise patterns in real-world scenes and consume significant computational resources due to reliance on Transformer-based models. In this work, the Context-guided Receptance Weighted Key-Value (\M) model is proposed, combining enhanced multi-view feature integration with efficient sequence modeling. Our approach introduces the Context-guided Token Shift (CTS) paradigm, which effectively captures local spatial dependencies and enhance the model's ability to model real-world noise distributions. Additionally, the Frequency Mix (FMix) module extracting frequency-domain features is designed to isolate noise in high-frequency spectra, and is integrated with spatial representations through a multi-view learning process. To improve computational efficiency, the Bidirectional WKV (BiWKV) mechanism is adopted, enabling full pixel-sequence interaction with linear complexity while overcoming the causal selection constraints. The model is validated on multiple real-world image denoising datasets, outperforming the existing state-of-the-art methods quantitatively and reducing inference time up to 40\%. Qualitative results further demonstrate the ability of our model to restore fine details in various scenes.
- Abstract(参考訳): 写真や自動運転などの低レベルの視覚アプリケーションでは、画像のデノイングが不可欠である。
既存の手法は、現実のシーンにおける複雑なノイズパターンの識別に苦労し、トランスフォーマーベースのモデルに依存するため、重要な計算資源を消費する。
本研究では、マルチビュー機能統合と効率的なシーケンスモデリングを組み合わせたコンテキスト誘導型Receptance Weighted Key-Value(\M)モデルを提案する。
提案手法では,局所的な空間依存性を効果的に捉え,実世界の雑音分布をモデル化するモデルの能力を向上する,コンテキスト誘導型Token Shift(CTS)パラダイムを導入している。
さらに、周波数領域の特徴を抽出する周波数混合モジュールは、高周波スペクトルのノイズを分離するように設計され、多視点学習プロセスを通じて空間表現と統合される。
計算効率を向上させるために、双方向WKV(Bidirectional WKV)機構を採用し、因果選択制約を克服しつつ、線形複雑度との完全なピクセルシーケンス相互作用を可能にする。
このモデルは、複数の実世界の画像復号化データセットで検証され、既存の最先端手法を定量的に上回り、推論時間を最大40 %まで短縮する。
さらに質的な結果から,様々な場面で細部を復元できるモデルの有効性が示された。
関連論文リスト
- Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Deep Learning CT Image Restoration using System Blur and Noise Models [2.2530496464901106]
本稿では,劣化した画像入力とシステムの曖昧さとノイズを両立させ,モデリングとディープラーニングのアプローチを組み合わせる手法を提案する。
その結果,システムボケと雑音特性を表す補助入力を用いた深層学習モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-07-20T21:17:35Z) - SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder [13.453138169497903]
SeNM-VAEは、ペアとアンペアの両方のデータセットを利用して、現実的な劣化データを生成する半教師付きノイズモデリング手法である。
実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。
提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
論文 参考訳(メタデータ) (2024-03-26T09:03:40Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Low-light Stereo Image Enhancement and De-noising in the Low-frequency
Information Enhanced Image Space [5.1569866461097185]
同時に高音化・低音化を行う手法が提案されている。
低周波情報拡張モジュール (IEM) は雑音を抑え, 新たな画像空間を創出するために提案される。
長距離空間依存を符号化するために,チャネル間および空間コンテキスト情報マイニングモジュール(CSM)を提案する。
エンコーダ-デコーダ構造が構築され、クロスビューとクロススケールな特徴相互作用が組み込まれている。
論文 参考訳(メタデータ) (2024-01-15T15:03:32Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。
本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z) - Variational Denoising Network: Toward Blind Noise Modeling and Removal [59.36166491196973]
ブラインド画像のデノイングはコンピュータビジョンにおいて重要な問題であるが、非常に難しい問題である。
本稿では,ノイズ推定と画像デノーミングを併用した新しい変分推論手法を提案する。
論文 参考訳(メタデータ) (2019-08-29T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。