論文の概要: Learning Accurate and Enriched Features for Stereo Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2406.16001v1
- Date: Sun, 23 Jun 2024 03:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:33:31.729675
- Title: Learning Accurate and Enriched Features for Stereo Image Super-Resolution
- Title(参考訳): ステレオ画像超解像のための高精度・高密度特徴の学習
- Authors: Hu Gao, Depeng Dang,
- Abstract要約: ステレオ画像超解像(ステレオSR)は、代替的な視点から補完情報を組み込むことで、超解像の質を高めることを目的としている。
我々は,空間的詳細を正確に保存し,豊富なコンテキスト情報を組み込むため,MSSFNet(Mixed-scale selective fusion Network)を提案する。
MSSFNetは、定量評価と定性評価の両方において最先端のアプローチよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo image super-resolution (stereoSR) aims to enhance the quality of super-resolution results by incorporating complementary information from an alternative view. Although current methods have shown significant advancements, they typically operate on representations at full resolution to preserve spatial details, facing challenges in accurately capturing contextual information. Simultaneously, they utilize all feature similarities to cross-fuse information from the two views, potentially disregarding the impact of irrelevant information. To overcome this problem, we propose a mixed-scale selective fusion network (MSSFNet) to preserve precise spatial details and incorporate abundant contextual information, and adaptively select and fuse most accurate features from two views to enhance the promotion of high-quality stereoSR. Specifically, we develop a mixed-scale block (MSB) that obtains contextually enriched feature representations across multiple spatial scales while preserving precise spatial details. Furthermore, to dynamically retain the most essential cross-view information, we design a selective fusion attention module (SFAM) that searches and transfers the most accurate features from another view. To learn an enriched set of local and non-local features, we introduce a fast fourier convolution block (FFCB) to explicitly integrate frequency domain knowledge. Extensive experiments show that MSSFNet achieves significant improvements over state-of-the-art approaches on both quantitative and qualitative evaluations.
- Abstract(参考訳): ステレオ画像超解像(ステレオSR)は、代替的な視点から補完情報を組み込むことで、超解像の質を高めることを目的としている。
現在の手法は顕著な進歩を見せているが、通常は空間的詳細を保存するために完全な解像度で表現を処理し、文脈情報を正確に捉えることの難しさに直面している。
同時に、2つのビューからの情報をクロスフューズするために、すべての特徴的類似性を利用し、無関係な情報の影響を無視する可能性がある。
この問題を克服するために,空間的詳細を正確に保存し,豊富なコンテキスト情報を組み込む複合スケール選択的融合ネットワーク (MSSFNet) を提案し,2つの視点から最も正確な特徴を適応的に選択・融合し,高品質ステレオSRの促進を図る。
具体的には,空間的詳細を正確に保存しつつ,複数の空間的スケールにわたる文脈的にリッチな特徴表現を得る混合スケールブロック(MSB)を開発した。
さらに、最も重要なクロスビュー情報を動的に保持するために、他のビューから最も正確な特徴を検索し、転送する選択的フュージョンアテンションモジュール(SFAM)を設計する。
局所的および非局所的特徴の豊富な集合を学習するために、周波数領域の知識を明示的に統合する高速フーリエ畳み込みブロック(FFCB)を導入する。
大規模実験により,MSSFNetは定量評価と定性評価の両面において,最先端のアプローチよりも大幅に改善されていることが示された。
関連論文リスト
- Remote Sensing Image Segmentation Using Vision Mamba and Multi-Scale Multi-Frequency Feature Fusion [9.098711843118629]
本稿では、状態空間モデル(SSM)を導入し、視覚マンバ(CVMH-UNet)に基づく新しいハイブリッドセマンティックセマンティックネットワークを提案する。
本手法は、クロス2Dスキャン(CS2D)を用いて、複数の方向からグローバル情報をフルにキャプチャする、クロス走査型視覚状態空間ブロック(CVSSBlock)を設計する。
ローカル情報取得におけるビジョン・マンバ(VMamba)の制約を克服するために畳み込みニューラルネットワークのブランチを組み込むことにより、このアプローチはグローバル機能とローカル機能の両方の包括的な分析を促進する。
論文 参考訳(メタデータ) (2024-10-08T02:17:38Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Cross-View Hierarchy Network for Stereo Image Super-Resolution [14.574538513341277]
ステレオ画像スーパーレゾリューションは、ビュー間の相補的な情報を活用することにより、高解像度ステレオ画像ペアの品質を向上させることを目的としている。
ステレオ画像超解法(CVHSSR)のためのクロスビュー階層ネットワーク(Cross-View-Hierarchy Network)という新しい手法を提案する。
CVHSSRは、パラメータを減らしながら、他の最先端手法よりも最高のステレオ画像超解像性能を達成する。
論文 参考訳(メタデータ) (2023-04-13T03:11:30Z) - Super-Resolving Face Image by Facial Parsing Information [52.1267613768555]
顔超解像は、低解像度の顔画像を対応する高解像度の画像に変換する技術である。
我々は,低解像度の顔画像から先行する顔を抽出する,新しい解析マップ付き顔超解像ネットワークを構築した。
高解像度特徴はより正確な空間情報を含み、低解像度特徴は強い文脈情報を提供する。
論文 参考訳(メタデータ) (2023-04-06T08:19:03Z) - SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image
Enhancement in The Dark [119.01585302856103]
低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。
1)クロスビューの相互作用が不十分なこと,2)ビュー内学習に長距離依存が欠如していること,である。
SufrinNet(SufrinNet)を用いた新しいLLSIEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T04:01:30Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。