論文の概要: Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration
- arxiv url: http://arxiv.org/abs/2412.03814v2
- Date: Wed, 11 Dec 2024 07:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:36.950939
- Title: Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration
- Title(参考訳): 画像復元における実・合成データセットと線形注意の探索
- Authors: Yuzhen Du, Teng Hu, Jiangning Zhang, Ran Yi Chengming Xu, Xiaobin Hu, Kai Wu, Donghao Luo, Yabiao Wang, Lizhuang Ma,
- Abstract要約: 画像復元は、劣化した入力から高品質な画像を復元することを目的としている。
既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
本稿では,画像複雑性に基づいた新しい画像フィルタリング手法であるReSynという大規模IRデータセットを提案する。
- 参考スコア(独自算出の注目度): 47.26304397935705
- License:
- Abstract: Image restoration (IR) aims to recover high-quality images from degraded inputs, with recent deep learning advancements significantly enhancing performance. However, existing methods lack a unified training benchmark for iterations and configurations. We also identify a bias in image complexity distributions between commonly used IR training and testing datasets, resulting in suboptimal restoration outcomes. To address this, we introduce a large-scale IR dataset called ReSyn, which employs a novel image filtering method based on image complexity to ensure a balanced distribution and includes both real and AIGC synthetic images. We establish a unified training standard that specifies iterations and configurations for image restoration models, focusing on measuring model convergence and restoration capability. Additionally, we enhance transformer-based image restoration models using linear attention mechanisms by proposing RWKV-IR, which integrates linear complexity RWKV into the transformer structure, allowing for both global and local receptive fields. Instead of directly using Vision-RWKV, we replace the original Q-Shift in RWKV with a Depth-wise Convolution shift to better model local dependencies, combined with Bi-directional attention for comprehensive linear attention. We also introduce a Cross-Bi-WKV module that merges two Bi-WKV modules with different scanning orders for balanced horizontal and vertical attention. Extensive experiments validate the effectiveness of our RWKV-IR model.
- Abstract(参考訳): 画像復元(IR)は、劣化した入力から高品質な画像を復元することを目的としており、近年のディープラーニングの進歩により性能が著しく向上している。
しかし、既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
また、一般的なIRトレーニングとテストデータセット間の画像複雑性分布のバイアスを同定し、その結果、最適な復元結果が得られた。
これを解決するために、ReSynと呼ばれる大規模なIRデータセットを導入し、画像の複雑さに基づいた新しい画像フィルタリング手法を用いて、バランスの取れた分布を確実にし、リアル画像とAIGC合成画像の両方を含む。
我々は、画像復元モデルの反復と構成を規定する統一的なトレーニング標準を確立し、モデル収束度と復元能力の測定に重点を置いている。
さらに,線形複雑RWKVを変換器構造に統合したRWKV-IRを提案することにより,線形アテンション機構を用いた変換器ベース画像復元モデルを強化し,大域的および局所的な受容場を実現する。
Vision-RWKVを直接使用する代わりに、RWKVの元々のQ-ShiftをDepth-wise Convolutionシフトに置き換えて、局所的な依存をより良くモデル化する。
また、2つのBi-WKVモジュールを異なる走査順序で結合して水平および垂直の注意をバランスさせるクロスバイ-WKVモジュールも導入した。
大規模実験によりRWKV-IRモデルの有効性が検証された。
関連論文リスト
- Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes [51.92255321684027]
トレーニング中、LR入力とHR画像の整列により、誤調整問題を緩和する新しいプラグアンドプレイモジュールを提案する。
具体的には,従来のLR試料の特徴を保ちながらHRと整合する新しいLR試料を模倣する。
本手法を合成および実世界のデータセット上で総合的に評価し,SRモデルのスペクトル間での有効性を実証した。
論文 参考訳(メタデータ) (2024-10-07T18:18:54Z) - Low-Res Leads the Way: Improving Generalization for Super-Resolution by
Self-Supervised Learning [45.13580581290495]
本研究は,SRモデルの現実の画像への適応性を高めるために,新しい"Low-Res Leads the Way"(LWay)トレーニングフレームワークを導入する。
提案手法では,低分解能(LR)再構成ネットワークを用いて,LR画像から劣化埋め込みを抽出し,LR再構成のための超解出力とマージする。
私たちのトレーニング体制は普遍的に互換性があり、ネットワークアーキテクチャの変更は不要です。
論文 参考訳(メタデータ) (2024-03-05T02:29:18Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Spectral Graphormer: Spectral Graph-based Transformer for Egocentric
Two-Hand Reconstruction using Multi-View Color Images [33.70056950818641]
マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースの新しいフレームワークを提案する。
本研究では, 実データへの合成学習モデルの一般化を実証し, 現実的な両手再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-08-21T20:07:02Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Self-Supervised Coordinate Projection Network for Sparse-View Computed
Tomography [31.774432128324385]
本研究では,1つのSVシングラムからアーチファクトフリーCT像を再構成する自己監督コーディネートプロジェクションnEtwork(SCOPE)を提案する。
暗黙的ニューラル表現ネットワーク(INR)を用いた類似の問題を解決する最近の研究と比較して、我々の重要な貢献は効果的で単純な再投射戦略である。
論文 参考訳(メタデータ) (2022-09-12T06:14:04Z) - Universal Generative Modeling for Calibration-free Parallel Mr Imaging [13.875986147033002]
キャリブレーションフリー並列MRIのための教師なしディープラーニングフレームワークを提案する。
我々は、ウェーブレット変換と適応的な反復戦略の両方の利点を統一されたフレームワークで活用する。
我々は、ウェーブレットテンソルをネットワーク入力として形成することにより、強力な雑音条件スコアネットワークを訓練する。
論文 参考訳(メタデータ) (2022-01-25T10:05:39Z) - Spectral Compressive Imaging Reconstruction Using Convolution and
Contextual Transformer [6.929652454131988]
本稿では,CCoT(Contextual Transformer)ブロックというハイブリッドネットワークモジュールを提案する。
提案したCCoTブロックを,一般化された交互投影アルゴリズムに基づく深層展開フレームワークに統合し,さらにGAP-CTネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T06:30:03Z) - Single-Image HDR Reconstruction by Learning to Reverse the Camera
Pipeline [100.5353614588565]
本稿では,LDR画像形成パイプラインの領域知識をモデルに組み込むことを提案する。
我々は,HDRto-LDR画像形成パイプラインを(1)ダイナミックレンジクリッピング,(2)カメラ応答関数からの非線形マッピング,(3)量子化としてモデル化する。
提案手法は,最先端の単一画像HDR再構成アルゴリズムに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-04-02T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。