論文の概要: PFT-SSR: Parallax Fusion Transformer for Stereo Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2303.13807v1
- Date: Fri, 24 Mar 2023 05:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-27 15:34:42.408050
- Title: PFT-SSR: Parallax Fusion Transformer for Stereo Image Super-Resolution
- Title(参考訳): PFT-SSR:ステレオ画像超解像用パララックス核融合変圧器
- Authors: Hansheng Guo, Juncheng Li, Guangwei Gao, Zhi Li, Tieyong Zeng
- Abstract要約: PFT(Parallax Fusion Transformer)と呼ばれるトランスフォーマーベースの並列核融合モジュールを提案する。
PFTは、クロスビュー情報を利用するためにクロスビューフュージョントランス(CVFT)と、イントラビュー機能改善のためにIVRT(Intra-view Refinement Transformer)を使用している。
実験およびアブレーション実験により、PFT-SSRは競争結果を得ることができ、ほとんどのSOTA法より優れることが示された。
- 参考スコア(独自算出の注目度): 22.251884516076096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stereo image super-resolution aims to boost the performance of image
super-resolution by exploiting the supplementary information provided by
binocular systems. Although previous methods have achieved promising results,
they did not fully utilize the information of cross-view and intra-view. To
further unleash the potential of binocular images, in this letter, we propose a
novel Transformerbased parallax fusion module called Parallax Fusion
Transformer (PFT). PFT employs a Cross-view Fusion Transformer (CVFT) to
utilize cross-view information and an Intra-view Refinement Transformer (IVRT)
for intra-view feature refinement. Meanwhile, we adopted the Swin Transformer
as the backbone for feature extraction and SR reconstruction to form a pure
Transformer architecture called PFT-SSR. Extensive experiments and ablation
studies show that PFT-SSR achieves competitive results and outperforms most
SOTA methods. Source code is available at https://github.com/MIVRC/PFT-PyTorch.
- Abstract(参考訳): ステレオ画像超解像は、双眼鏡システムが提供する補助情報を活用することにより、画像超解像の性能を高めることを目的としている。
従来の手法は有望な結果を得たが、クロスビューやイントラビューの情報を十分に活用しなかった。
両眼画像の可能性をさらに解き放つために,Parallax Fusion Transformer (PFT) と呼ばれるトランスフォーマーベースの新しいパララックス融合モジュールを提案する。
PFTは、クロスビュー情報を利用するためにクロスビューフュージョントランス(CVFT)と、イントラビュー機能改善のためのイントラビューリファインメントトランス(IVRT)を使用している。
一方,機能抽出とSR再構成のバックボーンとしてSwin Transformerを採用し,PFT-SSRと呼ばれる純粋なTransformerアーキテクチャを構築した。
大規模な実験とアブレーション研究により、PFT-SSRは競争的な結果を得ることができ、ほとんどのSOTA法より優れていることが示されている。
ソースコードはhttps://github.com/MIVRC/PFT-PyTorchで入手できる。
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - ITSRN++: Stronger and Better Implicit Transformer Network for Continuous
Screen Content Image Super-Resolution [32.441761727608856]
提案手法は,SCI SR(x3 SRでは0.74dBのSwinIR性能)の最先端性能を実現し,自然画像SRにも有効である。
大規模なSCI2Kデータセットを構築し,SCI SRの研究を容易にする。
論文 参考訳(メタデータ) (2022-10-17T07:47:34Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - PanFormer: a Transformer Based Model for Pan-sharpening [49.45405879193866]
パンシャーピングは、低分解能(LR)マルチスペクトル(MS)画像とそれに対応するパンクロマチック(PAN)画像から高分解能(HR)マルチスペクトル(MS)画像を作成することを目的としている。
近年の深層学習コミュニティにおける新しいファッションに触発されて,パンシャーピングのための新しいトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-06T09:22:20Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformer for Image Quality Assessment [14.975436239088312]
畳み込みニューラルネットワーク(CNN)により抽出された特徴マップの上部に浅層トランスフォーマーエンコーダを用いるアーキテクチャを提案する。
適応位置埋め込みは、任意の解像度で画像を処理するためにトランスフォーマーエンコーダで使用されます。
提案したTRIQアーキテクチャは優れた性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T18:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。