論文の概要: Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.01140v1
- Date: Sun, 01 Mar 2026 15:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.531097
- Title: Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers
- Title(参考訳): 教師が指導したイメージデノーミングのための因果的介入:視覚変換器の直交的内容-雑音分散
- Authors: Kuai Jiang, Zhaoyan Ding, Guijuan Zhang, Dianjie Lu, Zhuoran Zheng,
- Abstract要約: 従来の画像復調モデルは, 環境要因とノイズパターンの急激な相関関係を不注意に学習する。
本稿ではTCD-Net(Teacher-Guided Causal Disentanglement Network)を提案する。
大規模な実験により、TCD-Netは、複数のベンチマークにおいて、忠実さと効率の両方で、メインストリームのメソッドよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 8.989774165042542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional image denoising models often inadvertently learn spurious correlations between environmental factors and noise patterns. Moreover, due to high-frequency ambiguity, they struggle to reliably distinguish subtle textures from stochastic noise, resulting in over-removed details or residual noise artifacts. We therefore revisit denoising via causal intervention, arguing that purely correlational fitting entangles intrinsic content with extrinsic noise, which directly degrades robustness under distribution shifts. Motivated by this, we propose the Teacher-Guided Causal Disentanglement Network (TCD-Net), which explicitly decomposes the generative mechanism via structured interventions on feature spaces within a Vision Transformer framework. Specifically, our method integrates three key components: (1) An Environmental Bias Adjustment (EBA) module projects features into a stable, de-centered subspace to suppress global environmental bias (de-confounding). (2) A dual-branch disentanglement head employs an orthogonality constraint to force a strict separation between content and noise representations, preventing information leakage. (3) To resolve structural ambiguity, we leverage Nano Banana Pro, Google's reasoning-guided AI image generation model, to guide a causal prior, effectively pulling content representations back onto the natural-image manifold. Extensive experiments demonstrate that TCD-Net outperforms mainstream methods across multiple benchmarks in both fidelity and efficiency, achieving a real-time speed of 104.2 FPS on a single RTX 5090 GPU.
- Abstract(参考訳): 従来の画像認知モデルは、環境要因とノイズパターンの急激な相関を不注意に学習することが多い。
さらに、高周波の曖昧さのため、微妙なテクスチャと確率的ノイズを確実に区別することは困難であり、過剰に除去された細部や残留なノイズアーティファクトが生じる。
そこで,本研究は因果的介入による聴覚障害を再考し,本質的内容と外生的ノイズとの相関関係が,分布シフトによる頑健性を直接劣化させるものであると主張した。
そこで本研究では,教師ガイド型因果解離ネットワーク (TCD-Net) を提案し,視覚トランスフォーマフレームワーク内の特徴空間に対する構造的介入を通じて生成機構を明示的に分解する。
具体的には, 環境バイアス調整(EBA)モジュールは, 地球環境バイアス(デコンバウンディング)を抑制するため, 安定な非集中部分空間に機能を計画する。
2)デュアルブランチ・ディコンタングルメントヘッドは,コンテンツとノイズ表現の厳密な分離を強制するため,情報漏洩を防止するために直交制約を用いる。
(3) 構造的曖昧さを解決するため,Googleの推論誘導型AI画像生成モデルであるNano Banana Proを活用し,因果関係を導出し,コンテンツ表現を自然なイメージ多様体に効果的に引き戻す。
大規模な実験により、TD-Netは複数のベンチマークにおいて、忠実度と効率の両方でメインストリームの手法より優れており、1つのRTX 5090 GPU上で104.2 FPSのリアルタイム速度を実現している。
関連論文リスト
- Towards Frequency-Adaptive Learning for SAR Despeckling [10.764049665817629]
分割・分散アーキテクチャに基づく周波数適応型ヘテロジニアスデスペクリングモデルを提案する。
ノイズ特性の異なるサブネットワークを設計し,周波数成分の異なるサブネットワークを設計する。
エッジやテクスチャに富んだ高周波サブバンドに対して,ノイズ抑制と機能強化のための変形可能な畳み込みを備えた拡張U-Netを導入する。
論文 参考訳(メタデータ) (2025-11-08T07:08:22Z) - Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - Blind-Spot Guided Diffusion for Self-supervised Real-World Denoising [55.099717395320276]
Blind-Spot Guided Diffusionは、現実のイメージをデノナイズするための新しい自己教師型フレームワークである。
提案手法は,盲点ネットワーク(BSN)の限界と,自己教師型認知への拡散モデルの適用の難しさの2つに対処する。
論文 参考訳(メタデータ) (2025-09-19T15:35:07Z) - Towards Robust Image Denoising with Scale Equivariance [10.894808298340994]
我々は,空間的一様雑音のトレーニングから,空間的非一様劣化の推論まで,モデルがより適応できるようになることを論じる。
本稿では,HNM (Heterogeneous Normalization Module) とIGM (Interactive Gating Module) の2つの主要コンポーネントを備える頑健なブラインド認知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T00:06:28Z) - NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。
本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文 参考訳(メタデータ) (2025-05-18T05:09:47Z) - NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation [86.7260950382448]
画像の妥当性を補正する新しい手法としてノイズ拡散法を提案する。
NoiseDiffusionはノイズの多い画像空間内で動作し、これらのノイズの多い画像に生画像を注入することで、情報損失の課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T12:32:25Z) - DestripeCycleGAN: Stripe Simulation CycleGAN for Unsupervised Infrared
Image Destriping [15.797480466799222]
CycleGANは、教師なし画像復元の先進的なアプローチであることが証明されている。
DestripeCycleGANという単一フレーム赤外線画像デストリップのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T11:22:20Z) - Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral
Image Denoising [9.119226249676501]
ハイパースペクトル画像(HSI)は、帯域幅が狭いため、ノイズが多いことが多い。
HSIデータキューブのノイズを低減するため、モデル駆動型と学習型の両方の復調アルゴリズムが提案されている。
本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。
論文 参考訳(メタデータ) (2023-05-06T13:28:20Z) - Blur, Noise, and Compression Robust Generative Adversarial Networks [85.68632778835253]
劣化画像から直接クリーンな画像生成装置を学習するために, ぼかし, ノイズ, 圧縮堅牢なGAN(BNCR-GAN)を提案する。
NR-GANにインスパイアされたBNCR-GANは、画像、ぼやけたカーネル、ノイズ、品質要素ジェネレータで構成される多重ジェネレータモデルを使用する。
CIFAR-10の大規模比較とFFHQの一般性解析によるBNCR-GANの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-17T17:56:22Z) - Reconstructing the Noise Manifold for Image Denoising [56.562855317536396]
本稿では,画像ノイズ空間の構造を明示的に活用するcGANを提案する。
画像ノイズの低次元多様体を直接学習することにより、この多様体にまたがる情報のみをノイズ画像から除去する。
我々の実験に基づいて、我々のモデルは既存の最先端アーキテクチャを大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-11T00:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。