論文の概要: UniSER: A Foundation Model for Unified Soft Effects Removal
- arxiv url: http://arxiv.org/abs/2511.14183v1
- Date: Tue, 18 Nov 2025 06:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.973028
- Title: UniSER: A Foundation Model for Unified Soft Effects Removal
- Title(参考訳): UniSER: 統一ソフトエフェクト除去の基礎モデル
- Authors: Jingdong Zhang, Lingzhi Zhang, Qing Liu, Mang Tik Chiu, Connelly Barnes, Yizhou Wang, Haoran You, Xiaoyang Liu, Yuqian Zhou, Zhe Lin, Eli Shechtman, Sohrab Amirghodsi, Xin Li, Wenping Wang, Xiaohang Zhan,
- Abstract要約: 一つのフレームワーク内でのソフトエフェクトによる多様な劣化に対処できるUniSERを導入する。
我々の方法論は、堅牢性と一般化を保証するために、巨大な3.8Mペアデータセットのキュレーションに重点を置いている。
このシナジスティックなアプローチにより、UniSERはスペシャリストモデルとジェネラリストモデルの両方を大きく上回る。
- 参考スコア(独自算出の注目度): 72.60782767314713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital images are often degraded by soft effects such as lens flare, haze, shadows, and reflections, which reduce aesthetics even though the underlying pixels remain partially visible. The prevailing works address these degradations in isolation, developing highly specialized, specialist models that lack scalability and fail to exploit the shared underlying essences of these restoration problems. While specialist models are limited, recent large-scale pretrained generalist models offer powerful, text-driven image editing capabilities. while recent general-purpose systems (e.g., GPT-4o, Flux Kontext, Nano Banana) require detailed prompts and often fail to achieve robust removal on these fine-grained tasks or preserve identity of the scene. Leveraging the common essence of soft effects, i.e., semi-transparent occlusions, we introduce a foundational versatile model UniSER, capable of addressing diverse degradations caused by soft effects within a single framework. Our methodology centers on curating a massive 3.8M-pair dataset to ensure robustness and generalization, which includes novel, physically-plausible data to fill critical gaps in public benchmarks, and a tailored training pipeline that fine-tunes a Diffusion Transformer to learn robust restoration priors from this diverse data, integrating fine-grained mask and strength controls. This synergistic approach allows UniSER to significantly outperform both specialist and generalist models, achieving robust, high-fidelity restoration in the wild.
- Abstract(参考訳): デジタル画像は、レンズフレア、ヘイズ、シャドー、反射などのソフトエフェクトによって劣化することが多く、基礎となるピクセルが部分的に見えても美学を低下させる。
一般的な研究は、これらの分離された劣化に対処し、高度に専門化された、スケーラビリティに欠け、これらの修復問題の共通基盤を活用できない専門的なモデルを開発している。
スペシャリストモデルは限られているが、最近の大規模な事前訓練されたジェネリストモデルは、強力でテキスト駆動の画像編集機能を提供する。
最近の汎用システム(例えば、GPT-4o、Flux Kontext、Nano Banana)は詳細なプロンプトを必要とし、細かなタスクの堅牢な除去やシーンのアイデンティティの保持に失敗することが多い。
ソフトエフェクトの共通原理,すなわち半透明オクルージョンを導入し,単一フレームワーク内でのソフトエフェクトに起因する多様な劣化に対処する基本的汎用モデルUniSERを導入する。
我々の手法は、公開ベンチマークで重要なギャップを埋めるために、新しい物理的に証明可能なデータと、ディフュージョントランスフォーマーを微調整して、この多様なデータから堅牢な復元前を学習し、きめ細かいマスクと強度制御を統合するための調整されたトレーニングパイプラインを含む、堅牢性と一般化を保証するために、巨大な3.8Mペアデータセットのキュレーションに重点を置いている。
このシナジスティックなアプローチにより、UniSERはスペシャリストとジェネラリストの両方のモデルを大きく上回り、野生での堅牢で高忠実な復元を達成することができる。
関連論文リスト
- Learning to Restore Multi-Degraded Images via Ingredient Decoupling and Task-Aware Path Adaptation [51.10017611491389]
現実のイメージは、雨、騒音、ヘイズのような複数の共存する劣化に悩まされることが多い。
本稿では, 劣化成分の分解表現を利用して, 画像の再構成を行う適応型多重劣化画像復元ネットワークを提案する。
その結果、IMDNetと呼ばれる密に統合されたアーキテクチャは、実験を通じて広範囲に検証されている。
論文 参考訳(メタデータ) (2025-11-07T01:50:36Z) - UniLDiff: Unlocking the Power of Diffusion Priors for All-in-One Image Restoration [16.493990086330985]
UniLDiffは、デグレッションとディテールを意識したメカニズムで強化された統合フレームワークである。
劣化認識機能融合(DAFF:Degradation-Aware Feature Fusion)を導入し,低品質機能を各段階に動的に注入する。
また,Detail-Aware Expert Module (DAEM) をデコーダ内に設計し,テクスチャと微細構造の回復性を高める。
論文 参考訳(メタデータ) (2025-07-31T16:02:00Z) - UniRes: Universal Image Restoration for Complex Degradations [53.74404005987783]
実世界のイメージ復元は、様々なキャプチャ条件、キャプチャデバイス、後処理パイプラインから生じるさまざまな劣化によって妨げられている。
UniResという名前の、シンプルで柔軟な拡散ベースのフレームワークは、このような劣化をエンドツーエンドで解決するために提案されている。
提案手法は, 複合劣化画像復元データセットと単分解画像復元データセットの両方を用いて評価する。
論文 参考訳(メタデータ) (2025-06-05T21:25:39Z) - FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - Adaptive Blind All-in-One Image Restoration [15.726917603679716]
ブラインドオールインワン画像復元モデルは、未知の歪みで劣化した入力から高品質な画像を復元することを目的としている。
ABAIRは、単純で効果的な適応型ブラインドオールインワン修復モデルであり、複数の劣化を処理し、目に見えない歪みをうまく一般化する。
提案モデルは,5段と3段のIR構成における最先端性能を上回るだけでなく,目に見えない劣化や複合歪みに対して優れた一般化を示す。
論文 参考訳(メタデータ) (2024-11-27T14:58:08Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。
提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。