論文の概要: Rectifying Latent Space for Generative Single-Image Reflection Removal
- arxiv url: http://arxiv.org/abs/2512.06358v1
- Date: Sat, 06 Dec 2025 09:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.322388
- Title: Rectifying Latent Space for Generative Single-Image Reflection Removal
- Title(参考訳): 単像反射除去のための整形潜時空間
- Authors: Mingjia Li, Jin Hu, Hainuo Wang, Qiming Hu, Jiarui Wang, Xiaojie Guo,
- Abstract要約: 単一画像の除去は、既存の手法が崩壊した領域の構成を推論するのに苦労する、非常に不適切な問題である。
この研究は、編集目的の潜在拡散モデルを再設計し、高度に曖昧で層状な画像入力を効果的に知覚し、処理する。
- 参考スコア(独自算出の注目度): 16.341477336909765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-image reflection removal is a highly ill-posed problem, where existing methods struggle to reason about the composition of corrupted regions, causing them to fail at recovery and generalization in the wild. This work reframes an editing-purpose latent diffusion model to effectively perceive and process highly ambiguous, layered image inputs, yielding high-quality outputs. We argue that the challenge of this conversion stems from a critical yet overlooked issue, i.e., the latent space of semantic encoders lacks the inherent structure to interpret a composite image as a linear superposition of its constituent layers. Our approach is built on three synergistic components, including a reflection-equivariant VAE that aligns the latent space with the linear physics of reflection formation, a learnable task-specific text embedding for precise guidance that bypasses ambiguous language, and a depth-guided early-branching sampling strategy to harness generative stochasticity for promising results. Extensive experiments reveal that our model achieves new SOTA performance on multiple benchmarks and generalizes well to challenging real-world cases.
- Abstract(参考訳): 単一像の反射除去は、既存の手法が崩壊した領域の構成を推論するのに苦労し、回復と野生での一般化に失敗する、非常に不適切な問題である。
この研究は、編集目的の潜在拡散モデルを再設計し、高度にあいまいで層状な画像入力を効果的に知覚し、処理し、高品質な出力を得る。
この変換の課題は、批判的だが見落とされがちな問題、すなわち、意味エンコーダの潜伏空間は、合成画像をその構成層の線形重ね合わせとして解釈する固有の構造を欠いているからである。
提案手法は,3つの相乗的要素から成り立っている。例えば,リフレクション空間とリフレクション形成の線形物理とを整合させるリフレクション同変VAE,不明瞭な言語をバイパスする正確なガイダンスのための学習可能なタスク固有テキスト埋め込み,そして予測された結果に生成確率を活用するための深度誘導型早期ブラッシングサンプリング戦略である。
複数のベンチマークで新しいSOTA性能を実現し,実世界の課題に対して優れた一般化を実現している。
関連論文リスト
- Rotation Equivariant Arbitrary-scale Image Super-Resolution [62.41329042683779]
任意のスケールの超解像(ASISR)は、低解像度の入力画像から任意のスケールの高分解能回復を実現することを目的としている。
本研究では, 回転同変ASISR法の構築に尽力する。
論文 参考訳(メタデータ) (2025-08-07T08:51:03Z) - Dereflection Any Image with Diffusion Priors and Diversified Data [86.15504914121226]
本稿では、効率的なデータ準備パイプラインと、頑健な反射除去のための一般化可能なモデルを備えた包括的解を提案する。
まず、ターゲットシーンでランダムに回転する反射媒体によって生成された横反射除去(DRR)というデータセットを紹介する。
第2に、決定論的出力と高速推論のための1ステップ拡散を伴う拡散に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T17:48:14Z) - A Lightweight Deep Exclusion Unfolding Network for Single Image Reflection Removal [68.0573194557999]
シングルイメージリフレクション除去(SIRR)は、標準的なブラインドソース分離問題である。
本稿ではSIRRのための新しいDeep Exclusion Unfolding Network(DExNet)を提案する。
DExNetは、単純な反復スパースと補助的特徴更新(i-SAFU)アルゴリズムの展開とパラメータ化によって構築される。
論文 参考訳(メタデータ) (2025-03-03T07:54:27Z) - InDeed: Interpretable image deep decomposition with guaranteed generalizability [28.595151003310452]
画像分解は、イメージを基本成分に分解することを目的としている。
深層学習はそのようなタスクには強力だが、解釈可能性と一般化性に焦点を合わせることはめったにない。
本稿では,階層型ベイズモデルとディープラーニングを組み合わせた,解釈可能な深層画像分解のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-02T07:58:26Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。