論文の概要: Geometric Distortion Guided Transformer for Omnidirectional Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2406.10869v1
- Date: Sun, 16 Jun 2024 09:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:21:59.040569
- Title: Geometric Distortion Guided Transformer for Omnidirectional Image Super-Resolution
- Title(参考訳): 全方位画像超解像のための幾何歪み誘導変換器
- Authors: Cuixin Yang, Rongkang Dong, Jun Xiao, Cong Zhang, Kin-Man Lam, Fei Zhou, Guoping Qiu,
- Abstract要約: GDGT-OSR (Geometric Distortion Guided Transformer for Omdirectional Image Super-Resolution) について紹介する。
具体的には、変形可能な自己アテンションと統合された歪変調矩形ウィンドウ自己アテンション機構を提案し、歪みをよりよく知覚する。
新たなGDGT-OSRは既存の文献の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 26.819508321968108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As virtual and augmented reality applications gain popularity, omnidirectional image (ODI) super-resolution has become increasingly important. Unlike 2D plain images that are formed on a plane, ODIs are projected onto spherical surfaces. Applying established image super-resolution methods to ODIs, therefore, requires performing equirectangular projection (ERP) to map the ODIs onto a plane. ODI super-resolution needs to take into account geometric distortion resulting from ERP. However, without considering such geometric distortion of ERP images, previous deep-learning-based methods only utilize a limited range of pixels and may easily miss self-similar textures for reconstruction. In this paper, we introduce a novel Geometric Distortion Guided Transformer for Omnidirectional image Super-Resolution (GDGT-OSR). Specifically, a distortion modulated rectangle-window self-attention mechanism, integrated with deformable self-attention, is proposed to better perceive the distortion and thus involve more self-similar textures. Distortion modulation is achieved through a newly devised distortion guidance generator that produces guidance by exploiting the variability of distortion across latitudes. Furthermore, we propose a dynamic feature aggregation scheme to adaptively fuse the features from different self-attention modules. We present extensive experimental results on public datasets and show that the new GDGT-OSR outperforms methods in existing literature.
- Abstract(参考訳): バーチャルおよび拡張現実アプリケーションが普及するにつれて、全方位画像(ODI)超高解像度化がますます重要になっている。
平面上に形成された2次元平面画像とは異なり、ODIは球面に投影される。
したがって、ODIに確立された超解像法を適用するには、ODIを平面にマッピングする等角射影(ERP)を実行する必要がある。
ODI超解像はERPによる幾何学的歪みを考慮する必要がある。
しかし、これらのERP画像の幾何学的歪みを考慮せずに、従来のディープラーニングベースの手法は限られた範囲のピクセルしか利用せず、自己相似テクスチャを見逃しがちである。
本稿では,GDGT-OSR(Geometric Distortion Guided Transformer for Omdirectional image Super-Resolution)を提案する。
具体的には、変形可能な自己アテンションと統合された歪変調矩形風の自己アテンション機構を提案し、歪みをよりよく知覚し、したがってより自己類似的なテクスチャを含む。
歪み変調は、緯度にまたがる歪みのばらつきを利用して誘導する、新たに考案された歪み誘導発電機によって達成される。
さらに,異なる自己注意モジュールから特徴を適応的に融合させる動的特徴集約手法を提案する。
我々は,公開データセットに関する広範な実験結果を示し,GDGT-OSRが既存文献の手法より優れていることを示す。
関連論文リスト
- GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image [84.08705684778666]
本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。
具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
論文 参考訳(メタデータ) (2024-03-20T15:14:22Z) - Deformation-Invariant Neural Network and Its Applications in Distorted
Image Restoration and Analysis [8.009077765403287]
幾何学的歪みによって劣化した画像は、画像や物体認識などのコンピュータビジョンタスクにおいて重要な課題となる。
ディープラーニングに基づく画像モデルは通常、幾何学的に歪んだ画像に対して正確な性能を与えることができない。
本稿では、幾何学的に歪んだ画像の撮像タスクに対処するフレームワークである変形不変ニューラルネットワーク(DINN)を提案する。
論文 参考訳(メタデータ) (2023-10-04T08:01:36Z) - Learning Distortion Invariant Representation for Image Restoration from
A Causality Perspective [42.10777921339209]
因果性の観点から,画像復元のための新たなトレーニング戦略を提案する。
提案手法は歪不変表現学習(DIL)と呼ばれ,各歪みのタイプと度合いを1つの特定の共同創設者として扱う。
論文 参考訳(メタデータ) (2023-03-13T05:04:18Z) - OSRT: Omnidirectional Image Super-Resolution with Distortion-aware
Transformer [28.53390467642499]
従来手法では、等方射影(ERP)画像上の画像超解像(SR)を用いてこの問題を解こうとしていた。
そこで本研究では,実際の画像処理を模倣し,より現実的な低分解能試料を合成する魚眼下サンプルを提案する。
また、疑似ERP画像を平易な画像から合成する便利なデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-02-07T13:19:59Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - A Simple Plugin for Transforming Images to Arbitrary Scales [47.36233857830832]
我々は、既存の超解像モデルに挿入できる汎用プラグインを開発し、Arbitrary Resolution Image Scalingに向けた能力を便利に増強する。
得られたモデルは、固定スケールファクタ上での本来の性能を維持できるだけでなく、目に見えないスケールに拡張可能であることを示し、標準ベンチマーク上で既存の任意のスケールの超解像モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-07T09:24:38Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。