論文の概要: RPT-SR: Regional Prior attention Transformer for infrared image Super-Resolution
- arxiv url: http://arxiv.org/abs/2602.15490v1
- Date: Tue, 17 Feb 2026 10:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.037934
- Title: RPT-SR: Regional Prior attention Transformer for infrared image Super-Resolution
- Title(参考訳): RPT-SR:赤外画像超解像のための地域事前注意変換器
- Authors: Youngwan Jin, Incheol Park, Yagiz Nalcakan, Hyeongjin Ju, Sanghyeop Yeo, Shiho Kim,
- Abstract要約: 汎用超解像モデル、特にビジョン変換器は、一般的な赤外線画像のシナリオにおいて基本的な非効率性を示す。
本稿では、シーンレイアウト情報をアテンション機構に明示的にエンコードする新しいアーキテクチャである、赤外画像超解法(RPT-SR)の地域優先アテンショントランスフォーマを提案する。
私たちのコアコントリビューションは,(1)学習可能な局所的な先行トークン,(2)現在の入力のフレーム固有のコンテントをキャプチャする局所的なトークン,を融合するデュアルトークンフレームワークである。
- 参考スコア(独自算出の注目度): 1.2622634782102324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: General-purpose super-resolution models, particularly Vision Transformers, have achieved remarkable success but exhibit fundamental inefficiencies in common infrared imaging scenarios like surveillance and autonomous driving, which operate from fixed or nearly-static viewpoints. These models fail to exploit the strong, persistent spatial priors inherent in such scenes, leading to redundant learning and suboptimal performance. To address this, we propose the Regional Prior attention Transformer for infrared image Super-Resolution (RPT-SR), a novel architecture that explicitly encodes scene layout information into the attention mechanism. Our core contribution is a dual-token framework that fuses (1) learnable, regional prior tokens, which act as a persistent memory for the scene's global structure, with (2) local tokens that capture the frame-specific content of the current input. By utilizing these tokens into an attention, our model allows the priors to dynamically modulate the local reconstruction process. Extensive experiments validate our approach. While most prior works focus on a single infrared band, we demonstrate the broad applicability and versatility of RPT-SR by establishing new state-of-the-art performance across diverse datasets covering both Long-Wave (LWIR) and Short-Wave (SWIR) spectra
- Abstract(参考訳): 汎用超高解像度モデル、特にビジョントランスフォーマーは、目覚ましい成功を収めているが、監視や自律運転のような一般的な赤外線画像シナリオにおいて、固定的あるいはほぼ静的な視点から運用される基本的な非効率性を示す。
これらのモデルは、そのようなシーンに固有の強固で永続的な空間的先行性を利用することができず、冗長な学習と準最適性能をもたらす。
そこで本研究では,シーンレイアウト情報をアテンション機構に明示的にエンコードする新しいアーキテクチャである,赤外線画像超解法(RPT-SR)の地域優先アテンショントランスフォーマを提案する。
私たちのコアコントリビューションは,(1)学習可能な局所的な先行トークン,(2)現在の入力のフレーム固有のコンテントをキャプチャする局所的なトークン,を融合するデュアルトークンフレームワークである。
これらのトークンを注意に役立てることで、先行者が局所的な再構築プロセスを動的に調整することができる。
大規模な実験が我々のアプローチを検証する。
ほとんどの先行研究は単一の赤外線バンドに焦点を当てているが、LWIR(Long-Wave)スペクトルとSWIR(Short-Wave)スペクトルの両方をカバーする多種多様なデータセットにまたがる新しい最先端性能を確立することにより、RTT-SRの幅広い適用性と汎用性を実証している。
関連論文リスト
- IrisNet: Infrared Image Status Awareness Meta Decoder for Infrared Small Targets Detection [92.56025546608699]
IrisNetは、入力赤外線画像ステータスに検出戦略を適用する、新しいメタ学習フレームワークである。
提案手法は,赤外線画像特徴量とデコーダパラメータ全体の動的マッピングを確立する。
NUDT-SIRST、NUAA-SIRST、IRSTD-1Kデータセットの実験は、我々のIrisNetの優位性を示している。
論文 参考訳(メタデータ) (2025-11-25T13:53:54Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection [4.5138645285711165]
LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-Resolution [32.53713932204663]
DifIISRは、視覚品質と知覚性能に最適化された赤外線画像超解像拡散モデルである。
我々は、視力を維持するために赤外線熱スペクトル分布制御を導入する。
下流の視覚課題に対する知覚的ガイダンスとして,様々な視覚基盤モデルを組み込んだ。
論文 参考訳(メタデータ) (2025-03-03T05:20:57Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。