論文の概要: Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration
- arxiv url: http://arxiv.org/abs/2412.03814v2
- Date: Wed, 11 Dec 2024 07:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:44:55.675527
- Title: Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration
- Title(参考訳): 画像復元における実・合成データセットと線形注意の探索
- Authors: Yuzhen Du, Teng Hu, Jiangning Zhang, Ran Yi Chengming Xu, Xiaobin Hu, Kai Wu, Donghao Luo, Yabiao Wang, Lizhuang Ma,
- Abstract要約: 画像復元は、劣化した入力から高品質な画像を復元することを目的としている。
既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
本稿では,画像複雑性に基づいた新しい画像フィルタリング手法であるReSynという大規模IRデータセットを提案する。
- 参考スコア(独自算出の注目度): 47.26304397935705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image restoration (IR) aims to recover high-quality images from degraded inputs, with recent deep learning advancements significantly enhancing performance. However, existing methods lack a unified training benchmark for iterations and configurations. We also identify a bias in image complexity distributions between commonly used IR training and testing datasets, resulting in suboptimal restoration outcomes. To address this, we introduce a large-scale IR dataset called ReSyn, which employs a novel image filtering method based on image complexity to ensure a balanced distribution and includes both real and AIGC synthetic images. We establish a unified training standard that specifies iterations and configurations for image restoration models, focusing on measuring model convergence and restoration capability. Additionally, we enhance transformer-based image restoration models using linear attention mechanisms by proposing RWKV-IR, which integrates linear complexity RWKV into the transformer structure, allowing for both global and local receptive fields. Instead of directly using Vision-RWKV, we replace the original Q-Shift in RWKV with a Depth-wise Convolution shift to better model local dependencies, combined with Bi-directional attention for comprehensive linear attention. We also introduce a Cross-Bi-WKV module that merges two Bi-WKV modules with different scanning orders for balanced horizontal and vertical attention. Extensive experiments validate the effectiveness of our RWKV-IR model.
- Abstract(参考訳): 画像復元(IR)は、劣化した入力から高品質な画像を復元することを目的としており、近年のディープラーニングの進歩により性能が著しく向上している。
しかし、既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
また、一般的なIRトレーニングとテストデータセット間の画像複雑性分布のバイアスを同定し、その結果、最適な復元結果が得られた。
これを解決するために、ReSynと呼ばれる大規模なIRデータセットを導入し、画像の複雑さに基づいた新しい画像フィルタリング手法を用いて、バランスの取れた分布を確実にし、リアル画像とAIGC合成画像の両方を含む。
我々は、画像復元モデルの反復と構成を規定する統一的なトレーニング標準を確立し、モデル収束度と復元能力の測定に重点を置いている。
さらに,線形複雑RWKVを変換器構造に統合したRWKV-IRを提案することにより,線形アテンション機構を用いた変換器ベース画像復元モデルを強化し,大域的および局所的な受容場を実現する。
Vision-RWKVを直接使用する代わりに、RWKVの元々のQ-ShiftをDepth-wise Convolutionシフトに置き換えて、局所的な依存をより良くモデル化する。
また、2つのBi-WKVモジュールを異なる走査順序で結合して水平および垂直の注意をバランスさせるクロスバイ-WKVモジュールも導入した。
大規模実験によりRWKV-IRモデルの有効性が検証された。
関連論文リスト
- GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution [15.563111624900865]
GuideSRは、画像の忠実度を高めるために特別に設計された、単一ステップ拡散に基づく画像超解像(SR)モデルである。
提案手法は,PSNR, SSIM, LPIPS, DISTS, FIDなど,様々な基準ベースの指標において,既存の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-01T17:48:25Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。
既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。
逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文 参考訳(メタデータ) (2025-03-16T12:32:11Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes [51.92255321684027]
トレーニング中、LR入力とHR画像の整列により、誤調整問題を緩和する新しいプラグアンドプレイモジュールを提案する。
具体的には,従来のLR試料の特徴を保ちながらHRと整合する新しいLR試料を模倣する。
本手法を合成および実世界のデータセット上で総合的に評価し,SRモデルのスペクトル間での有効性を実証した。
論文 参考訳(メタデータ) (2024-10-07T18:18:54Z) - Low-Res Leads the Way: Improving Generalization for Super-Resolution by
Self-Supervised Learning [45.13580581290495]
本研究は,SRモデルの現実の画像への適応性を高めるために,新しい"Low-Res Leads the Way"(LWay)トレーニングフレームワークを導入する。
提案手法では,低分解能(LR)再構成ネットワークを用いて,LR画像から劣化埋め込みを抽出し,LR再構成のための超解出力とマージする。
私たちのトレーニング体制は普遍的に互換性があり、ネットワークアーキテクチャの変更は不要です。
論文 参考訳(メタデータ) (2024-03-05T02:29:18Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Spectral Graphormer: Spectral Graph-based Transformer for Egocentric
Two-Hand Reconstruction using Multi-View Color Images [33.70056950818641]
マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースの新しいフレームワークを提案する。
本研究では, 実データへの合成学習モデルの一般化を実証し, 現実的な両手再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-08-21T20:07:02Z) - Physics-Driven Turbulence Image Restoration with Stochastic Refinement [80.79900297089176]
大気乱流による画像歪みは、長距離光学画像システムにおいて重要な問題である。
ディープラーニングモデルが現実世界の乱流条件に適応するために、高速で物理学的なシミュレーションツールが導入された。
本稿では,物理統合復元ネットワーク(PiRN)を提案する。
論文 参考訳(メタデータ) (2023-07-20T05:49:21Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Self-Supervised Coordinate Projection Network for Sparse-View Computed
Tomography [31.774432128324385]
本研究では,1つのSVシングラムからアーチファクトフリーCT像を再構成する自己監督コーディネートプロジェクションnEtwork(SCOPE)を提案する。
暗黙的ニューラル表現ネットワーク(INR)を用いた類似の問題を解決する最近の研究と比較して、我々の重要な貢献は効果的で単純な再投射戦略である。
論文 参考訳(メタデータ) (2022-09-12T06:14:04Z) - Universal Generative Modeling for Calibration-free Parallel Mr Imaging [13.875986147033002]
キャリブレーションフリー並列MRIのための教師なしディープラーニングフレームワークを提案する。
我々は、ウェーブレット変換と適応的な反復戦略の両方の利点を統一されたフレームワークで活用する。
我々は、ウェーブレットテンソルをネットワーク入力として形成することにより、強力な雑音条件スコアネットワークを訓練する。
論文 参考訳(メタデータ) (2022-01-25T10:05:39Z) - Spectral Compressive Imaging Reconstruction Using Convolution and
Contextual Transformer [6.929652454131988]
本稿では,CCoT(Contextual Transformer)ブロックというハイブリッドネットワークモジュールを提案する。
提案したCCoTブロックを,一般化された交互投影アルゴリズムに基づく深層展開フレームワークに統合し,さらにGAP-CTネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T06:30:03Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Joint Frequency and Image Space Learning for MRI Reconstruction and
Analysis [7.821429746599738]
本稿では、周波数空間データから再構成するための汎用的なビルディングブロックとして、周波数と画像の特徴表現を明示的に組み合わせたニューラルネットワーク層が利用できることを示す。
提案した共同学習方式により、周波数空間に固有のアーティファクトの補正と画像空間表現の操作を両立させ、ネットワークのすべての層でコヒーレントな画像構造を再構築することができる。
論文 参考訳(メタデータ) (2020-07-02T23:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。