論文の概要: LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2401.11859v2
- Date: Wed, 24 Jan 2024 11:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 11:35:49.009065
- Title: LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution
- Title(参考訳): lkformer:赤外線超解像用大型カーネルトランスフォーマ
- Authors: Feiwei Qin and Kang Yan and Changmiao Wang and Ruiquan Ge and Yong
Peng and Kai Zhang
- Abstract要約: 本稿では,LKFormer(Large Kernel Transformer)と呼ばれる強力なトランスモデルを提案する。
これは主に、非局所的な特徴モデリングを実行するために、大きなカーネルとの深度的な畳み込みを利用する。
我々は,GPFN(Gated-Pixel Feed-Forward Network)と呼ばれる新しいフィードフォワードネットワーク構造を考案し,ネットワーク内の情報フローを管理するLKFormerの能力を強化した。
- 参考スコア(独自算出の注目度): 5.478440050117844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the broad application of infrared technology across diverse fields,
there is an increasing emphasis on investigating super-resolution techniques
for infrared images within the realm of deep learning. Despite the impressive
results of current Transformer-based methods in image super-resolution tasks,
their reliance on the self-attentive mechanism intrinsic to the Transformer
architecture results in images being treated as one-dimensional sequences,
thereby neglecting their inherent two-dimensional structure. Moreover, infrared
images exhibit a uniform pixel distribution and a limited gradient range,
posing challenges for the model to capture effective feature information.
Consequently, we suggest a potent Transformer model, termed Large Kernel
Transformer (LKFormer), to address this issue. Specifically, we have designed a
Large Kernel Residual Attention (LKRA) module with linear complexity. This
mainly employs depth-wise convolution with large kernels to execute non-local
feature modeling, thereby substituting the standard self-attentive layer.
Additionally, we have devised a novel feed-forward network structure called
Gated-Pixel Feed-Forward Network (GPFN) to augment the LKFormer's capacity to
manage the information flow within the network. Comprehensive experimental
results reveal that our method surpasses the most advanced techniques
available, using fewer parameters and yielding considerably superior
performance.The source code will be available at
https://github.com/sad192/large-kernel-Transformer.
- Abstract(参考訳): 多様な分野にまたがる赤外線技術の幅広い応用を考えると、深層学習の領域における赤外線画像の超解像技術の研究に重点が置かれている。
画像超解像タスクにおける現在のトランスフォーマー方式の印象的な結果にもかかわらず、トランスフォーマーアーキテクチャに固有の自己注意機構に依存することによって、画像は1次元のシーケンスとして扱われるようになり、その結果、固有の2次元構造は無視される。
さらに、赤外線画像は、均一な画素分布と限定的な勾配範囲を示し、有効な特徴情報をキャプチャするためのモデルの課題を提起する。
そこで本稿では,LKFormer(Large Kernel Transformer)と呼ばれる強力なトランスモデルを提案する。
具体的には,LKRA(Large Kernel Residual Attention)モジュールを線形複雑度で設計した。
これは主に、大きなカーネルとの深さ方向の畳み込みを使用して非局所的な特徴モデリングを実行し、標準の自己完結層を構成する。
さらに,Gated-Pixel Feed-Forward Network (GPFN) と呼ばれる新しいフィードフォワードネットワーク構造を考案し,ネットワーク内の情報フローを管理するLKFormerの能力を強化した。
総合的な実験結果から,本手法はより少ないパラメータを使用でき,より優れた性能が得られる。ソースコードはhttps://github.com/sad192/large-kernel-Transformerで入手できる。
関連論文リスト
- DSR-Diff: Depth Map Super-Resolution with Diffusion Model [38.68563026759223]
本稿では,遅延空間内の拡散モデルを用いて,深度マップの超解像誘導を行う新しいCDSRパラダイムを提案する。
提案手法は,最先端手法と比較して,広範囲な実験において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-16T14:18:10Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Self-Calibrated Efficient Transformer for Lightweight Super-Resolution [21.63691922827879]
本稿では,この問題を解決するために,SCET(Self-Calibrated Efficient Transformer)ネットワークを提案する。
SCETのアーキテクチャは、主に自己校正モジュールと効率的なトランスフォーマーブロックで構成されている。
ネットワーク全体の異なる設定に関する総合的な結果を提供する。
論文 参考訳(メタデータ) (2022-04-19T14:20:32Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Fusformer: A Transformer-based Fusion Approach for Hyperspectral Image
Super-resolution [9.022005574190182]
低分解能ハイパースペクトル像と高分解能マルチスペクトル像を融合させるトランスフォーマーに基づくネットワークを設計する。
LR-HSIは主スペクトル構造を持つため、ネットワークは空間的詳細推定に重点を置いている。
様々な実験と品質指標は、他の最先端手法と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2021-09-05T14:00:34Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Discrete Cosine Transform Network for Guided Depth Map Super-Resolution [19.86463937632802]
目標は、高解像度(HR)RGB画像を使用してエッジとオブジェクトの輪郭に関する余分な情報を提供し、低解像度の深度マップをHR画像にアップサンプリングできるようにすることです。
本稿では,4つのコンポーネントから構成されるDCTNet(Digital Discrete Cosine Transform Network)を提案する。
本手法は,最新手法を越しに,正確かつ人事深度マップを生成できることを示した。
論文 参考訳(メタデータ) (2021-04-14T17:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。