論文の概要: Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations
- arxiv url: http://arxiv.org/abs/2602.18822v1
- Date: Sat, 21 Feb 2026 12:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.333218
- Title: Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations
- Title(参考訳): 実世界のミスアライメント観測に対するロバスト自己監督型クロスモーダル超解法
- Authors: Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya,
- Abstract要約: 実世界の不整合データに対するクロスモーダル超解像(SR)について検討する。
複雑な空間的ミスアライメントを持つ低分解能(LR)ソースと高分解能(HR)ガイドイメージペアの限られた数のみが利用可能である。
この課題に対処するため、オンラインで最適化された完全自己教師型モデルであるRobSelfを提案する。
- 参考スコア(独自算出の注目度): 22.18461610906397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study cross-modal super-resolution (SR) on real-world misaligned data, where only a limited number of low-resolution (LR) source and high-resolution (HR) guide image pairs with complex spatial misalignments are available. To address this challenge, we propose RobSelf--a fully self-supervised model that is optimized online, requiring no training data, ground-truth supervision, or pre-alignment. RobSelf features two key techniques: a misalignment-aware feature translator and a content-aware reference filter. The translator reformulates unsupervised cross-modal and cross-resolution alignment as a weakly-supervised, misalignment-aware translation subtask, producing an aligned guide feature with inherent redundancy. Guided by this feature, the filter performs reference-based discriminative self-enhancement on the source, enabling SR predictions with high resolution and high fidelity. Across a variety of tasks, we demonstrate that RobSelf achieves state-of-the-art performance and superior efficiency. Additionally, we introduce a real-world dataset, RealMisSR, to advance research on this topic. Dataset and code: https://github.com/palmdong/RobSelf.
- Abstract(参考訳): 低解像度(LR)と高解像度(HR)の複雑な空間的不整合を持つ画像対が限られている実世界の不整合データに対して、クロスモーダル超解像(SR)について検討する。
この課題に対処するために、オンライン最適化された完全自己管理モデルであるRobSelfを提案する。
RobSelfには2つの重要なテクニックがある。
トランスレータは、教師なしのクロスモーダルアライメントとクロスレゾリューションアライメントを、弱い教師付き、ミスアライメント対応の翻訳サブタスクとして再構成し、固有の冗長性を備えたアライメントガイド特徴を生成する。
この特徴により、このフィルタはソース上で参照ベースの差別的自己強調を行い、高い解像度と高い忠実度でSR予測を可能にする。
様々なタスクにおいて、RobSelfが最先端のパフォーマンスと優れた効率を実現していることを示す。
さらに,実世界のデータセットであるRealMisSRを導入し,このトピックについて研究を進める。
データセットとコード:https://github.com/palmdong/RobSelf
関連論文リスト
- Dual-domain Adaptation Networks for Realistic Image Super-resolution [81.34345637776408]
現実画像超解像(SR)は、現実世界の低解像度(LR)画像を高解像度(HR)画像に変換することに焦点を当てている。
現在の手法は、限られた現実世界のLR-HRデータと競合し、基本的な画像特徴の学習に影響を及ぼす。
我々は、シミュレーションされた画像SRモデルを実世界のデータセットに効率よく適応できる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-21T12:57:23Z) - SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。
第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文 参考訳(メタデータ) (2025-10-26T05:03:55Z) - SCEESR: Semantic-Control Edge Enhancement for Diffusion-Based Super-Resolution [0.8122270502556375]
現実世界の超解像は複雑な劣化と固有の再構成の曖昧さに対処しなければならない。
一段階拡散モデルは速度を提供するが、蒸留品による構造的不正確さをしばしば生み出す。
セマンティックエッジガイダンスのための制御ネット機構を用いて,一段階拡散モデルを強化する新しいSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-22T06:06:01Z) - RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task [20.16344973940904]
高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:03:46Z) - Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes [51.92255321684027]
トレーニング中、LR入力とHR画像の整列により、誤調整問題を緩和する新しいプラグアンドプレイモジュールを提案する。
具体的には,従来のLR試料の特徴を保ちながらHRと整合する新しいLR試料を模倣する。
本手法を合成および実世界のデータセット上で総合的に評価し,SRモデルのスペクトル間での有効性を実証した。
論文 参考訳(メタデータ) (2024-10-07T18:18:54Z) - Low-Rank Representations Meets Deep Unfolding: A Generalized and
Interpretable Network for Hyperspectral Anomaly Detection [41.50904949744355]
現在のハイパースペクトル異常検出(HAD)ベンチマークデータセットは、低解像度、単純なバックグラウンド、検出データの小さなサイズに悩まされている。
これらの要因は、ロバスト性の観点からよく知られた低ランク表現(LRR)モデルの性能も制限する。
我々は、複雑なシナリオにおけるHADアルゴリズムの堅牢性を改善するために、新しいHADベンチマークデータセットであるAIR-HADを構築した。
論文 参考訳(メタデータ) (2024-02-23T14:15:58Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Benchmark Dataset and Effective Inter-Frame Alignment for Real-World
Video Super-Resolution [65.20905703823965]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。
既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。
EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (2022-12-10T17:41:46Z) - Robust Reference-based Super-Resolution via C2-Matching [77.51610726936657]
超解像(Ref-SR)は、最近、高分解能(HR)参照画像を導入して、低分解能(LR)入力画像を強化するための有望なパラダイムとして登場した。
既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。
本稿では,C2-Matchingを提案する。
論文 参考訳(メタデータ) (2021-06-03T16:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。