論文の概要: RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration
- arxiv url: http://arxiv.org/abs/2509.12039v1
- Date: Mon, 15 Sep 2025 15:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.364119
- Title: RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration
- Title(参考訳): RAM++:オールインワン画像復元のための適応マスクによるロバスト表現学習
- Authors: Zilong Zhang, Chujie Qin, Chunle Guo, Yong Zhang, Chao Xue, Ming-Ming Cheng, Chongyi Li,
- Abstract要約: RAM++はオールインワンイメージ復元のための2段階のフレームワークである。
高レベルのセマンティック理解と低レベルのテクスチャ生成を統合する。
極端なシナリオでは、既存の劣化指向のメソッドの制限に対処します。
- 参考スコア(独自算出の注目度): 94.49712266736141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents Robust Representation Learning via Adaptive Mask (RAM++), a two-stage framework for all-in-one image restoration. RAM++ integrates high-level semantic understanding with low-level texture generation to achieve content-oriented robust restoration. It addresses the limitations of existing degradation-oriented methods in extreme scenarios (e.g., degradations strongly coupled with image structures). RAM++ also mitigates common challenges such as unbalanced performance across tasks, overfitting to seen degradations, and weak generalization to unseen ones through three key designs: 1) Adaptive Semantic-Aware Mask (AdaSAM): a pretraining strategy that applies pixel-level masks to semantically rich and textured regions. This design enables the network to learn both generative priors and image content priors from various degradations. 2) Mask Attribute Conductance (MAC): a selective fine-tuning strategy that adjusts the layers with higher contributions to bridge the integrity gap between masked pretraining and full-image fine-tuning while retaining learned priors. 3) Robust Feature Regularization (RFR): a strategy that leverages DINOv2's semantically consistent and degradation-invariant representations, together with efficient feature fusion, to achieve faithful and semantically coherent restoration. With these designs, RAM++ achieves robust, well-balanced, and state-of-the-art performance across seen, unseen, extreme, and mixed degradations. Our code and model will be released at https://github.com/DragonisCV/RAM
- Abstract(参考訳): 本研究は、オールインワン画像復元のための2段階フレームワークである、Adaptive Mask (RAM++)によるロバスト表現学習を紹介する。
RAM++は、コンテンツ指向の堅牢な復元を実現するために、高レベルのセマンティック理解と低レベルのテクスチャ生成を統合している。
これは、極端なシナリオ(例えば、画像構造と強く結合した劣化)における既存の劣化指向の手法の限界に対処する。
RAM++はまた、タスク間でのバランスの取れないパフォーマンス、劣化への過度な適合、そして3つの主要な設計を通じて見つからないものへの一般化の弱さなど、一般的な課題を緩和する。
1)アダプティブ・セマンティック・アウェア・マスク(AdaSAM:Adaptive Semantic-Aware Mask): セマンティック・リッチでテクスチャ化された領域に画素レベルのマスクを適用する事前学習戦略。
この設計により、ネットワークは様々な劣化から生成前と画像コンテンツ前の両方を学習できる。
2)マスク属性コンダクタンス(MAC)は,学習前の学習を維持しつつ,マスク付きプレトレーニングとフルイメージファインチューニングの整合性のギャップを埋めるために,高いコントリビューションで層を調整した選択的な微調整戦略である。
3)ロバスト特徴正規化(RFR):DINOv2のセマンティックな一貫性と劣化不変表現を活用する戦略と効率的な特徴融合を併用し、忠実でセマンティックなコヒーレントな復元を実現する。
これらの設計により、RAM++は、見え、見えない、極端な、混ざった劣化に対して、堅牢で、バランスよく、最先端のパフォーマンスを達成する。
私たちのコードとモデルはhttps://github.com/DragonisCV/RAMでリリースされます。
関連論文リスト
- Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文 参考訳(メタデータ) (2025-05-25T10:57:35Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Enhancing Image Matting in Real-World Scenes with Mask-Guided Iterative Refinement [4.006320049969407]
Mask2Alphaは、画像マッチングにおけるセマンティック理解、インスタンス認識、詳細回復を強化するために設計された反復的な改善フレームワークである。
本フレームワークでは,自己教師型視覚変換機能をセマンティックプリエントとして活用し,複雑なシナリオにおけるコンテキスト理解を強化する。
Mask2Alphaは、常に最先端の結果を達成し、正確かつ効率的な画像マッチングにおけるその有効性を示している。
論文 参考訳(メタデータ) (2025-02-24T12:16:28Z) - Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration [35.3663995646582]
オールインワン画像復元は、複数の劣化タイプを1つのモデルで処理することを目的としている。
本稿では,オールインワンブラインド画像復元のための簡易パイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-28T16:33:43Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。