Fugu-MT 論文翻訳(概要): Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation

論文の概要: Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation

arxiv url: http://arxiv.org/abs/2412.15845v1
Date: Fri, 20 Dec 2024 12:36:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.960317
Title: Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation
Title（参考訳）: マンバ・トランスフォーマー・アグリゲーションによる多次元視覚プロンプト画像復元
Authors: Aiwen Jiang, Hourong Chen, Zhiwen Chen, Jihua Ye, Mingwen Wang,
Abstract要約: 本稿では,計算効率を犠牲にすることなく,MambaとTransformerの相補的な利点を十分に活用することを提案する。マンバの選択的走査機構は空間モデリングに焦点をあて、長距離空間依存のキャプチャを可能にする。トランスフォーマーの自己保持機構は、画像の空間次元と二次的な成長の重荷を回避し、チャネルモデリングに焦点をあてる。
参考スコア（独自算出の注目度）: 4.227991281224256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent efforts on image restoration have focused on developing "all-in-one" models that can handle different degradation types and levels within single model. However, most of mainstream Transformer-based ones confronted with dilemma between model capabilities and computation burdens, since self-attention mechanism quadratically increase in computational complexity with respect to image size, and has inadequacies in capturing long-range dependencies. Most of Mamba-related ones solely scanned feature map in spatial dimension for global modeling, failing to fully utilize information in channel dimension. To address aforementioned problems, this paper has proposed to fully utilize complementary advantages from Mamba and Transformer without sacrificing computation efficiency. Specifically, the selective scanning mechanism of Mamba is employed to focus on spatial modeling, enabling capture long-range spatial dependencies under linear complexity. The self-attention mechanism of Transformer is applied to focus on channel modeling, avoiding high computation burdens that are in quadratic growth with image's spatial dimensions. Moreover, to enrich informative prompts for effective image restoration, multi-dimensional prompt learning modules are proposed to learn prompt-flows from multi-scale encoder/decoder layers, benefiting for revealing underlying characteristic of various degradations from both spatial and channel perspectives, therefore, enhancing the capabilities of "all-in-one" model to solve various restoration tasks. Extensive experiment results on several image restoration benchmark tasks such as image denoising, dehazing, and deraining, have demonstrated that the proposed method can achieve new state-of-the-art performance, compared with many popular mainstream methods. Related source codes and pre-trained parameters will be public on github https://github.com/12138-chr/MTAIR.
Abstract（参考訳）: 画像復元における最近の取り組みは、単一のモデル内で異なる劣化タイプとレベルを処理できる「オールインワン」モデルの開発に焦点を当てている。しかし、トランスフォーマーをベースとした主流のものは、画像サイズに関して自己保持機構が計算複雑性を2次的に増加させるため、モデル能力と計算負荷のジレンマに直面しており、長距離依存を捉えるには不適当である。マンバ関連のものの多くは、グローバルモデリングのための空間次元の特徴マップのみをスキャンし、チャネル次元の情報を完全に活用できなかった。上記の問題に対処するため,計算効率を犠牲にすることなく,Mamba と Transformer の相補的優位性を十分に活用することを提案した。具体的には、Mambaの選択的走査機構を用いて空間モデリングに焦点をあて、線形複雑性の下で長距離空間依存を捕捉する。トランスフォーマーの自己保持機構は、画像の空間次元と二次的に成長する計算負担を回避し、チャネルモデリングに焦点をあてる。さらに,効率的な画像復元のための情報的プロンプトを充実させるため,マルチスケールエンコーダ/デコーダ層からのプロンプトフローを学習するための多次元プロンプト学習モジュールを提案する。画像のデノイングやデハジング,デラミニングといった画像修復ベンチマークタスクに対する大規模な実験結果から,提案手法は,多くの主流手法と比較して,新たな最先端性能を実現することができることを示した。関連するソースコードと事前トレーニングされたパラメータはgithub https://github.com/12138-chr/MTAIRで公開される。

関連論文リスト

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-19T09:54:46Z)
DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-04-08T08:22:54Z)
MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。 MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。 Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文参考訳（メタデータ） (2025-01-30T14:55:40Z)
Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-19T16:42:58Z)
Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation [41.54814517077309]
本稿では,拡張性のある代替案として,従来の注意機構を先導する新しい拡散アーキテクチャDiffusion Mamba(DiM)を提案する。 DiMは、高速な推論時間と計算負荷の低減を実現し、シーケンス長に対する線形複雑性を維持する。その結果、DIMのスケーラビリティと効率性を確認し、画像およびビデオ生成技術のための新しいベンチマークを確立した。
論文参考訳（メタデータ） (2024-05-24T18:50:27Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Multi-scale Unified Network for Image Classification [33.560003528712414]
CNNは、実世界のマルチスケール画像入力を扱う際に、性能と計算効率において顕著な課題に直面している。本稿では,マルチスケール,統一ネットワーク,スケール不変制約からなるMultiscale Unified Network(MUSN)を提案する。 MUSNは精度が44.53%向上し、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。
論文参考訳（メタデータ） (2024-03-27T06:40:26Z)
Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文参考訳（メタデータ） (2024-03-26T17:43:15Z)
VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。 VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2024-03-18T02:38:55Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。