論文の概要: Intra and Inter Parser-Prompted Transformers for Effective Image Restoration
- arxiv url: http://arxiv.org/abs/2503.14037v1
- Date: Tue, 18 Mar 2025 08:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:55.199295
- Title: Intra and Inter Parser-Prompted Transformers for Effective Image Restoration
- Title(参考訳): 効果的な画像復元のためのパーサ内およびインタープロンプト変換器
- Authors: Cong Wang, Jinshan Pan, Liyan Wang, Wei Wang,
- Abstract要約: 画像復元のための視覚基盤モデルから有用な特徴を探索するイントラ・イントラ・プロンプテッド・トランスフォーマー(PPTformer)を提案する。
PPTformerは、画像デラリニング、デフォーカスデフォーカス、デフォーカス、低照度化における最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 39.105452602810814
- License:
- Abstract: We propose Intra and Inter Parser-Prompted Transformers (PPTformer) that explore useful features from visual foundation models for image restoration. Specifically, PPTformer contains two parts: an Image Restoration Network (IRNet) for restoring images from degraded observations and a Parser-Prompted Feature Generation Network (PPFGNet) for providing IRNet with reliable parser information to boost restoration. To enhance the integration of the parser within IRNet, we propose Intra Parser-Prompted Attention (IntraPPA) and Inter Parser-Prompted Attention (InterPPA) to implicitly and explicitly learn useful parser features to facilitate restoration. The IntraPPA re-considers cross attention between parser and restoration features, enabling implicit perception of the parser from a long-range and intra-layer perspective. Conversely, the InterPPA initially fuses restoration features with those of the parser, followed by formulating these fused features within an attention mechanism to explicitly perceive parser information. Further, we propose a parser-prompted feed-forward network to guide restoration within pixel-wise gating modulation. Experimental results show that PPTformer achieves state-of-the-art performance on image deraining, defocus deblurring, desnowing, and low-light enhancement.
- Abstract(参考訳): 画像復元のための視覚基盤モデルから有用な特徴を探索するPPTformer(Intra and Inter Parser-Prompted Transformer)を提案する。
具体的には、画像復元ネットワーク(IRNet)と、回復を促進するために信頼できるパーサ情報を提供するParser-Prompted Feature Generation Network(PPFGNet)である。
IntraPPAとInterPPAは,IRNet内でのパーサの統合性を高めるため,パーサの機能を暗黙的かつ明示的に学習し,修復を容易にする。
パーサーと修復機能の間でPPAの再認識者が注意を交わし、長距離および層内の観点からパーサーを暗黙的に知覚することができる。
逆に、InterPPAは、最初にパーサーと復元機能を融合させ、その後、これらの融合した特徴を注意機構内で定式化し、パーサー情報を明示的に知覚する。
さらに,画素ワイドゲーティング変調内での復元を誘導するパーサプロンプトフィードフォワードネットワークを提案する。
実験結果から,PTformerは画像劣化,デフォーカス劣化,脱落,低照度化に対して,最先端の性能を実現していることがわかった。
関連論文リスト
- UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - Relational Representation Learning Network for Cross-Spectral Image Patch Matching [4.645173438129938]
既存の研究は、画像パッチの特徴間の多様な関係を抽出することに焦点を当てている。
本稿では,個々の画像パッチの内在的特徴を十分にマイニングすることに焦点を当てた,革新的な表現学習概念を提案する。
論文 参考訳(メタデータ) (2024-03-18T12:59:35Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - Prompt-In-Prompt Learning for Universal Image Restoration [38.81186629753392]
汎用画像復元のためのPIP(Prompt-In-Prompt Learning)を提案する。
本稿では, 2つの新しいプロンプト, 高レベル劣化知識をエンコードする劣化認識プロンプト, 重要な低レベル情報を提供する基本的な復元プロンプトを提案する。
これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。
論文 参考訳(メタデータ) (2023-12-08T13:36:01Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - PVPUFormer: Probabilistic Visual Prompt Unified Transformer for Interactive Image Segmentation [28.033243651780214]
本稿では,対話型画像セグメンテーションのための簡易で効果的な確率的ビジュアルプロンプト統一変換器(PVPUFormer)を提案する。
本稿ではまず,プロンプト情報と非プロンプト情報の両方を探索することにより一次元ベクトルを生成する確率的プロンプト統一(PPuE)を提案する。
次にPrompt-to-Pixel Contrastive (P$2$C)ロスを示し、プロンプトとピクセルの特徴を正確に整合させ、それらの間の表現ギャップを埋める。
論文 参考訳(メタデータ) (2023-06-11T12:00:33Z) - NinjaDesc: Content-Concealing Visual Descriptors via Adversarial
Learning [39.083687078653014]
本稿では,マッチング精度を維持しつつ,画像再構成を防止する視覚記述子を訓練するための逆学習フレームワークを提案する。
我々は、特徴符号化ネットワークと画像再構成ネットワークを競合させ、特徴符号化ネットワークは、生成した記述子で画像再構成を妨害しようとする一方で、再構成者は、記述子からの入力画像の復元を試みる。
論文 参考訳(メタデータ) (2021-12-23T18:58:58Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。