論文の概要: Restore Anything Model via Efficient Degradation Adaptation
- arxiv url: http://arxiv.org/abs/2407.13372v2
- Date: Wed, 18 Dec 2024 16:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:23.991083
- Title: Restore Anything Model via Efficient Degradation Adaptation
- Title(参考訳): 効率的な劣化適応による任意のモデルの再保存
- Authors: Bin Ren, Eduard Zamfir, Zongwei Wu, Yawei Li, Yidi Li, Danda Pani Paudel, Radu Timofte, Ming-Hsuan Yang, Nicu Sebe,
- Abstract要約: RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
- 参考スコア(独自算出の注目度): 129.38475243424563
- License:
- Abstract: With the proliferation of mobile devices, the need for an efficient model to restore any degraded image has become increasingly significant and impactful. Traditional approaches typically involve training dedicated models for each specific degradation, resulting in inefficiency and redundancy. More recent solutions either introduce additional modules to learn visual prompts significantly increasing model size or incorporate cross-modal transfer from large language models trained on vast datasets, adding complexity to the system architecture. In contrast, our approach, termed RAM, takes a unified path that leverages inherent similarities across various degradations to enable both efficient and comprehensive restoration through a joint embedding mechanism without scaling up the model or relying on large multimodal models. Specifically, we examine the sub-latent space of each input, identifying key components and reweighting them in a gated manner. This intrinsic degradation awareness is further combined with contextualized attention in an X-shaped framework, enhancing local-global interactions. Extensive benchmarking in an all-in-one restoration setting confirms RAM's SOTA performance, reducing model complexity by approximately 82% in trainable parameters and 85% in FLOPs. Our code and models will be publicly available.
- Abstract(参考訳): モバイルデバイスの普及に伴い、劣化したイメージを復元する効率的なモデルの必要性は、ますます重要で影響力のあるものになりつつある。
従来のアプローチでは、特定の劣化ごとに専用のモデルをトレーニングし、非効率性と冗長性をもたらすのが一般的である。
より最近のソリューションでは、視覚的なプロンプトを学習するための追加モジュールを導入するか、巨大なデータセットでトレーニングされた大きな言語モデルからのモダル間転送を組み込むか、システムアーキテクチャに複雑さを追加するかのどちらかだ。
対照的に、我々のアプローチであるRAMは、様々な劣化にまたがる固有の類似性を利用して、モデルをスケールアップしたり、大規模なマルチモーダルモデルに依存することなく、結合埋め込み機構による効率的かつ包括的な復元を可能にする統一的な経路をとっています。
具体的には、各入力のサブラテント空間を調べ、キーコンポーネントを特定し、ゲート方式でそれらを重み付けする。
この本質的な劣化認識は、X字型フレームワークにおける文脈的注意と組み合わせられ、局所的・局所的な相互作用が促進される。
オールインワンのリカバリ環境での大規模なベンチマークでは、RAMのSOTAパフォーマンスが確認され、トレーニング可能なパラメータで約82%、FLOPで約85%のモデル複雑性が削減された。
私たちのコードとモデルは公開されます。
関連論文リスト
- Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation [4.227991281224256]
本稿では,計算効率を犠牲にすることなく,MambaとTransformerの相補的な利点を十分に活用することを提案する。
マンバの選択的走査機構は空間モデリングに焦点をあて、長距離空間依存のキャプチャを可能にする。
トランスフォーマーの自己保持機構は、画像の空間次元と二次的な成長の重荷を回避し、チャネルモデリングに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-20T12:36:34Z) - FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Improving Generalization of Neural Vehicle Routing Problem Solvers Through the Lens of Model Architecture [9.244633039170186]
本稿では,ESF(Scaling Factor)とDS(Distributed-Specific)デコーダを提案する。
ESFは、様々な大きさのVRPを解く際に、トレーニング中に発見された慣れ親しんだものに対して、モデルの注意重みパターンを調整する。
DSデコーダは、複数の補助光デコーダを通して複数のトレーニング分布パターンのVRPを明示的にモデル化し、モデル表現空間を拡大する。
論文 参考訳(メタデータ) (2024-06-10T09:03:17Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Memory-adaptive Depth-wise Heterogenous Federated Learning [24.13198329419849]
FLにFeDepthというメモリ適応型深度学習ソリューションを導入し,各クライアントのメモリ予算に応じて,全モデルをブロックに適応的に分解する。
CIFAR-10 と CIFAR-100 では,CIFAR-10 と CIFAR-100 でそれぞれ 5% と 10% 以上の精度向上を実現した。
論文 参考訳(メタデータ) (2023-03-08T20:52:57Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。