論文の概要: Sector Patch Embedding: An Embedding Module Conforming to The Distortion
Pattern of Fisheye Image
- arxiv url: http://arxiv.org/abs/2303.14645v1
- Date: Sun, 26 Mar 2023 07:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:17:53.293826
- Title: Sector Patch Embedding: An Embedding Module Conforming to The Distortion
Pattern of Fisheye Image
- Title(参考訳): セクタパッチ埋め込み:魚眼画像の歪みパターンに準拠した埋め込みモジュール
- Authors: Dianyi Yang, Jiadong Tang, Yu Gao, Yi Yang, Mengyin Fu
- Abstract要約: 本稿では,魚眼画像の歪みパターンに応じて,セクタパッチ埋め込み(SPE)と呼ばれる新しいパッチ埋め込み手法を提案する。
ViTとPVTの分類トップ1の精度は、それぞれ0.75%、SPEは2.8%向上した。
本手法は他のTransformerベースのモデルにも容易に適用できる。
- 参考スコア(独自算出の注目度): 23.73394258521532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fisheye cameras suffer from image distortion while having a large field of
view(LFOV). And this fact leads to poor performance on some fisheye vision
tasks. One of the solutions is to optimize the current vision algorithm for
fisheye images. However, most of the CNN-based methods and the
Transformer-based methods lack the capability of leveraging distortion
information efficiently. In this work, we propose a novel patch embedding
method called Sector Patch Embedding(SPE), conforming to the distortion pattern
of the fisheye image. Furthermore, we put forward a synthetic fisheye dataset
based on the ImageNet-1K and explore the performance of several Transformer
models on the dataset. The classification top-1 accuracy of ViT and PVT is
improved by 0.75% and 2.8% with SPE respectively. The experiments show that the
proposed sector patch embedding method can better perceive distortion and
extract features on the fisheye images. Our method can be easily adopted to
other Transformer-based models. Source code is at
https://github.com/IN2-ViAUn/Sector-Patch-Embedding.
- Abstract(参考訳): 魚眼カメラは大きな視野(LFOV)を持ちながら画像歪みに悩まされる。
そしてこの事実は、魚眼視力のタスクにおけるパフォーマンスの低下につながります。
解決策の1つは、現在の魚眼画像の視覚アルゴリズムを最適化することである。
しかし、cnn法やトランスフォーマー法の多くは、歪み情報を効率的に活用する能力に欠ける。
本研究では,魚眼画像の歪みパターンに応じて,セクタパッチ埋め込み(SPE)と呼ばれる新しいパッチ埋め込み手法を提案する。
さらに、ImageNet-1Kに基づく合成魚眼データセットを作成し、データセット上でのトランスフォーマーモデルの性能について検討した。
ViTとPVTの分類トップ1の精度は、それぞれ0.75%と2.8%向上している。
実験の結果,提案手法は魚眼画像の歪みを知覚し,特徴を抽出するのに役立つことがわかった。
本手法は他のトランスフォーマーモデルにも容易に適用できる。
ソースコードはhttps://github.com/IN2-ViAUn/Sector-Patch-Embeddingにある。
関連論文リスト
- RoFIR: Robust Fisheye Image Rectification Framework Impervious to Optical Center Deviation [88.54817424560056]
局所歪みの度合いと方向を測定する歪みベクトルマップ(DVM)を提案する。
DVMを学習することで、大域的な歪みパターンに頼ることなく、各ピクセルの局所歪みを独立に識別することができる。
事前学習段階では、歪みベクトルマップを予測し、各画素の局所歪み特徴を知覚する。
微調整段階では、魚眼画像修正のための画素単位のフローマップを予測する。
論文 参考訳(メタデータ) (2024-06-27T06:38:56Z) - SimFIR: A Simple Framework for Fisheye Image Rectification with
Self-supervised Representation Learning [105.01294305972037]
自己教師型表現学習に基づく魚眼画像修正のためのフレームワークであるSimFIRを紹介する。
まず魚眼画像を複数のパッチに分割し,その表現を視覚変換器で抽出する。
下流修正作業における転送性能が著しく向上し、学習された表現の有効性が検証される。
論文 参考訳(メタデータ) (2023-08-17T15:20:17Z) - A Stronger Stitching Algorithm for Fisheye Images based on Deblurring
and Registration [3.6417475195085602]
我々は,従来の画像処理手法と深層学習を組み合わせることで,魚眼画像のより強力な縫合アルゴリズムを考案した。
魚眼画像補正の段階において,キャリブレーション法により修正した魚眼画像の青信号に対する注意に基づく活動自由ネットワーク (ANAFNet) を提案する。
画像登録では,総合的な画像マッチングアルゴリズムであるORB-FREAK-GMS(OFG)を提案する。
論文 参考訳(メタデータ) (2023-07-22T06:54:16Z) - FisheyeEX: Polar Outpainting for Extending the FoV of Fisheye Lens [84.12722334460022]
魚眼レンズは、広視野(FoV)のため、計算写真や運転支援における応用が増大する
本稿では,魚眼レンズのFoVを拡張した魚眼EX法を提案する。
以上の結果から,本手法は従来の魚眼画像よりも27%多く,最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-06-12T21:38:50Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Fisheye Distortion Rectification from Deep Straight Lines [34.61402494687801]
本稿では,魚眼の歪み補正問題に対処するため,新しいラインアウェア整流ネットワーク(LaRecNet)を提案する。
本モデルでは,幾何的精度と画質の両面から最先端の性能を実現する。
特に、LaRecNetによって修正された画像は、基幹よりも高いピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)を達成する。
論文 参考訳(メタデータ) (2020-03-25T13:20:00Z) - Universal Semantic Segmentation for Fisheye Urban Driving Images [6.56742346304883]
魚眼画像に変換するために,7自由度拡張法を提案する。
トレーニングプロセスでは、リチリニア画像を7つのDoFで魚眼画像に変換し、異なる位置、向き、焦点距離のカメラで撮影した魚眼画像をシミュレートする。
その結果, 異なる変形魚眼データに対するモデル精度とロバスト性を向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-01-31T11:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。