論文の概要: Detail-Preserving Transformer for Light Field Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2201.00346v1
- Date: Sun, 2 Jan 2022 12:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:26:22.034220
- Title: Detail-Preserving Transformer for Light Field Image Super-Resolution
- Title(参考訳): 光電界画像超解像用詳細保存変圧器
- Authors: Shunzhou Wang, Tianfei Zhou, Yao Lu, Huijun Di
- Abstract要約: 我々は,光場超解像をシーケンス・ツー・シーケンスの再構成タスクとして扱うことにより,トランスフォーマー上に構築された新しい定式化を行った。
本稿では,光場の勾配マップを利用してシーケンス学習のガイドを行うことにより,ディテール保存型変換器(DPT)を提案する。
DPTは2つのブランチで構成され、それぞれがトランスフォーマーに関連付けられ、オリジナルまたはグラデーション画像シーケンスから学習する。
- 参考スコア(独自算出の注目度): 15.53525700552796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, numerous algorithms have been developed to tackle the problem of
light field super-resolution (LFSR), i.e., super-resolving low-resolution light
fields to gain high-resolution views. Despite delivering encouraging results,
these approaches are all convolution-based, and are naturally weak in global
relation modeling of sub-aperture images necessarily to characterize the
inherent structure of light fields. In this paper, we put forth a novel
formulation built upon Transformers, by treating LFSR as a sequence-to-sequence
reconstruction task. In particular, our model regards sub-aperture images of
each vertical or horizontal angular view as a sequence, and establishes
long-range geometric dependencies within each sequence via a spatial-angular
locally-enhanced self-attention layer, which maintains the locality of each
sub-aperture image as well. Additionally, to better recover image details, we
propose a detail-preserving Transformer (termed as DPT), by leveraging gradient
maps of light field to guide the sequence learning. DPT consists of two
branches, with each associated with a Transformer for learning from an original
or gradient image sequence. The two branches are finally fused to obtain
comprehensive feature representations for reconstruction. Evaluations are
conducted on a number of light field datasets, including real-world scenes and
synthetic data. The proposed method achieves superior performance comparing
with other state-of-the-art schemes. Our code is publicly available at:
https://github.com/BITszwang/DPT.
- Abstract(参考訳): 近年、高分解能ビューを得るために超解像低分解能光場(LFSR)問題に取り組むために多くのアルゴリズムが開発されている。
これらのアプローチはすべて畳み込みに基づくものであり、光場固有の構造を特徴付ける必要のあるサブアパーチャ画像のグローバルリレーションモデリングにおいて、自然に弱い。
本稿では,LFSRをシーケンス・ツー・シーケンス再構成タスクとして扱うことにより,トランスフォーマー上に構築された新しい定式化を提案する。
特に,本モデルでは,垂直あるいは水平の角度ビューのサブアパーチャイメージをシーケンスとみなし,各サブアパーチャイメージの局所性も維持する空間角の局所的な自己アテンション層を通じて,各シーケンス内の長距離幾何学的依存関係を確立する。
さらに、画像の詳細をよりよく復元するために、光場の勾配マップを利用してシーケンス学習をガイドするディテール保存変換器(DPT)を提案する。
DPTは2つのブランチで構成され、それぞれがトランスフォーマーに関連付けられ、オリジナルまたはグラデーション画像シーケンスから学習する。
2つの枝は最終的に融合し、再建のための包括的な特徴表現を得る。
実世界のシーンや合成データを含む、多くの光フィールドデータセットで評価が行われる。
提案手法は他の最先端方式と比較して優れた性能を実現する。
私たちのコードは、https://github.com/BITszwang/DPTで公開されています。
関連論文リスト
- TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Light Field Diffusion for Single-View Novel View Synthesis [32.59286750410843]
NVS(Single-view novel view synthesis)は、コンピュータビジョンにおいて重要であるが困難である。
NVSの最近の進歩は、高忠実度画像を生成するのに優れた能力として、Denoising Diffusion Probabilistic Models (DDPMs)を活用している。
光電界拡散(LFD)は,従来のカメラポーズ行列への依存を超越した,条件拡散に基づく新しいアプローチである。
論文 参考訳(メタデータ) (2023-09-20T03:27:06Z) - Low-Light Image Enhancement with Illumination-Aware Gamma Correction and
Complete Image Modelling Network [69.96295927854042]
低照度環境は通常、情報の少ない大規模な暗黒地帯に繋がる。
本稿では,ガンマ補正の有効性を深層ネットワークのモデリング能力と統合することを提案する。
指数関数演算は高い計算複雑性をもたらすので、Taylor Series を用いてガンマ補正を近似することを提案する。
論文 参考訳(メタデータ) (2023-08-16T08:46:51Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Physics-Informed Ensemble Representation for Light-Field Image
Super-Resolution [12.156009287223382]
我々は、光場(LF)撮像プロセスの座標変換を分析し、LF画像の幾何学的関係を明らかにする。
我々は,仮想スリット画像(VSI)の新たなLF部分空間を導入し,サブアパーチャ画像に補完するサブピクセル情報を提供する。
アンサンプされたLFデータから画像構造を超解き出すために,EPIXformer という幾何認識デコーダを提案する。
論文 参考訳(メタデータ) (2023-05-31T16:27:00Z) - Progressively-connected Light Field Network for Efficient View Synthesis [69.29043048775802]
本稿では、複雑な前方シーンのビュー合成のためのプログレッシブ・コネクテッド・ライトフィールド・ネットワーク(ProLiF)を提案する。
ProLiFは4Dライトフィールドをエンコードし、画像やパッチレベルの損失に対するトレーニングステップで大量の光線をレンダリングすることができる。
論文 参考訳(メタデータ) (2022-07-10T13:47:20Z) - Light Field Reconstruction Using Convolutional Network on EPI and
Extended Applications [78.63280020581662]
スパースビューからの光場再構成のための新しい畳み込みニューラルネットワーク(CNN)ベースのフレームワークを開発した。
最先端のアルゴリズムと比較して,提案フレームワークの高性能と堅牢性を実証する。
論文 参考訳(メタデータ) (2021-03-24T08:16:32Z) - Light Field Spatial Super-resolution via Deep Combinatorial Geometry
Embedding and Structural Consistency Regularization [99.96632216070718]
ハンドヘルドデバイスが取得した光フィールド(LF)画像は通常、空間分解能の低下に悩まされる。
LF画像の高次元空間特性と複雑な幾何学構造は、従来の単一像SRよりも問題をより困難にしている。
本稿では,LF画像の各ビューを個別に超解答する新しい学習ベースLFフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-05T14:39:57Z) - Learning light field synthesis with Multi-Plane Images: scene encoding
as a recurrent segmentation task [30.058283056074426]
本稿では、入力ビューのスパースセットを多面画像(MPI)に変換することで、大規模なベースライン光場からのビュー合成の問題に対処する。
利用可能なデータセットは少ないため、広範なトレーニングを必要としない軽量ネットワークを提案する。
我々のモデルは、RGB層を推定することを学ぶのではなく、MPIアルファ層内のシーン幾何学を符号化するだけであり、それはセグメンテーションタスクに帰着する。
論文 参考訳(メタデータ) (2020-02-12T14:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。