論文の概要: PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion
- arxiv url: http://arxiv.org/abs/2107.13967v1
- Date: Thu, 29 Jul 2021 13:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 17:11:47.512911
- Title: PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion
- Title(参考訳): PPT核融合 : ピラミッドパッチ変換器による画像融合の事例研究
- Authors: Yu Fu, TianYang Xu, XiaoJun Wu, Josef Kittler
- Abstract要約: 画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
- 参考スコア(独自算出の注目度): 37.993611194758195
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The Transformer architecture has achieved rapiddevelopment in recent years,
outperforming the CNN archi-tectures in many computer vision tasks, such as the
VisionTransformers (ViT) for image classification. However, existingvisual
transformer models aim to extract semantic informationfor high-level tasks such
as classification and detection, distortingthe spatial resolution of the input
image, thus sacrificing thecapacity in reconstructing the input or generating
high-resolutionimages. In this paper, therefore, we propose a Patch
PyramidTransformer(PPT) to effectively address the above issues. Specif-ically,
we first design a Patch Transformer to transform theimage into a sequence of
patches, where transformer encodingis performed for each patch to extract local
representations.In addition, we construct a Pyramid Transformer to
effectivelyextract the non-local information from the entire image.
Afterobtaining a set of multi-scale, multi-dimensional, and multi-anglefeatures
of the original image, we design the image reconstructionnetwork to ensure that
the features can be reconstructed intothe original input. To validate the
effectiveness, we apply theproposed Patch Pyramid Transformer to the image
fusion task.The experimental results demonstrate its superior
performanceagainst the state-of-the-art fusion approaches, achieving the
bestresults on several evaluation indicators. The underlying capacityof the PPT
network is reflected by its universal power in featureextraction and image
reconstruction, which can be directlyapplied to different image fusion tasks
without redesigning orretraining the network.
- Abstract(参考訳): トランスフォーマーアーキテクチャは近年急速に発展し、画像分類のためのビジョントランスフォーマー(ViT)など多くのコンピュータビジョンタスクにおいてCNNのアーカイテクチュアを上回っている。
しかし、既存の視覚変換モデルは、分類や検出、入力画像の空間分解能のゆがみ、入力の再構築や高解像度画像の生成における能力の犠牲となるような高レベルのタスクに対する意味情報を抽出することを目的としている。
そこで本稿では,上記の課題を効果的に解決するためのパッチピラミッドトランスフォーマ(ppt)を提案する。
我々はまず,まずパッチの列にテーマを変換するパッチ変換器を設計し,各パッチに対して変換器エンコーディングを行い,局所表現を抽出し,また画像全体から非局所情報を効果的に抽出するピラミッド変換器を構築した。
原画像の多次元・多次元・多角形状の集合を得た後,画像再構成ネットワークを設計し,特徴を元の入力に再構成できるようにする。
画像融合課題に対して提案したパッチピラミッド変換器を適用し, 実験結果により, 現状の融合手法よりも優れた性能を示し, 評価指標の最適値を得ることができた。
PPTネットワークの根底にある能力は、特徴抽出と画像再構成における普遍的なパワーによって反映され、ネットワークを再調整することなく、異なる画像融合タスクに直接適用することができる。
関連論文リスト
- SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。
実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文 参考訳(メタデータ) (2024-06-19T02:08:45Z) - A Contrastive Learning Scheme with Transformer Innate Patches [4.588028371034407]
本稿では,Transformer固有のパッチを用いたコントラスト学習方式であるContrastive Transformerを提案する。
このスキームは、教師付きパッチレベルのコントラスト学習を行い、地上の真理マスクに基づいてパッチを選択する。
このスキームはすべての視覚変換器アーキテクチャに適用され、実装が容易で、最小限のメモリフットプリントを導入している。
論文 参考訳(メタデータ) (2023-03-26T20:19:28Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - PanFormer: a Transformer Based Model for Pan-sharpening [49.45405879193866]
パンシャーピングは、低分解能(LR)マルチスペクトル(MS)画像とそれに対応するパンクロマチック(PAN)画像から高分解能(HR)マルチスペクトル(MS)画像を作成することを目的としている。
近年の深層学習コミュニティにおける新しいファッションに触発されて,パンシャーピングのための新しいトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-06T09:22:20Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Uformer: A General U-Shaped Transformer for Image Restoration [47.60420806106756]
画像復元のためにTransformerブロックを用いた階層型エンコーダデコーダネットワークを構築した。
いくつかの画像復元タスクの実験は、Uformerの優位性を示している。
論文 参考訳(メタデータ) (2021-06-06T12:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。