論文の概要: DarSwin: Distortion Aware Radial Swin Transformer
- arxiv url: http://arxiv.org/abs/2304.09691v1
- Date: Wed, 19 Apr 2023 14:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 14:15:26.113684
- Title: DarSwin: Distortion Aware Radial Swin Transformer
- Title(参考訳): darswin:歪みを考慮したラジアルスウィン変圧器
- Authors: Akshaya Athwale, Arman Afrasiyabi, Justin Lague, Ichrak Shili, Ola
Ahmad and Jean-Francois Lalonde
- Abstract要約: 広角レンズによる歪みを自動的に適応するトランスモデルを提案する。
我々は、DarSwinが異なる広角レンズの見えざる歪みに対してゼロショット適応を行うことができる実験を通して示す。
- 参考スコア(独自算出の注目度): 1.8007510302604657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wide-angle lenses are commonly used in perception tasks requiring a large
field of view. Unfortunately, these lenses produce significant distortions
making conventional models that ignore the distortion effects unable to adapt
to wide-angle images. In this paper, we present a novel transformer-based model
that automatically adapts to the distortion produced by wide-angle lenses. We
leverage the physical characteristics of such lenses, which are analytically
defined by the radial distortion profile (assumed to be known), to develop a
distortion aware radial swin transformer (DarSwin). In contrast to conventional
transformer-based architectures, DarSwin comprises a radial patch partitioning,
a distortion-based sampling technique for creating token embeddings, and a
polar position encoding for radial patch merging. We validate our method on
classification tasks using synthetically distorted ImageNet data and show
through extensive experiments that DarSwin can perform zero-shot adaptation to
unseen distortions of different wide-angle lenses. Compared to other baselines,
DarSwin achieves the best results (in terms of Top-1 and -5 accuracy), when
tested on in-distribution data, with almost 2% (6%) gain in Top-1 accuracy
under medium (high) distortion levels, and comparable to the state-of-the-art
under low and very low distortion levels (perspective-like images).
- Abstract(参考訳): 広角レンズは広い視野を必要とする知覚タスクで一般的に使用される。
残念ながら、これらのレンズは、広角画像に適応できない歪み効果を無視する従来のモデルに顕著な歪みをもたらす。
本稿では,広角レンズの歪みに自動的に適応する変圧器モデルを提案する。
我々は、放射歪プロファイルによって解析的に定義されるようなレンズの物理的特性を利用して、歪みを意識した放射歪変換器(DarSwin)を開発する。
従来の変圧器ベースのアーキテクチャとは対照的に、darswinはラジアルパッチパーティショニングと、トークン埋め込みを作成するための歪みベースのサンプリング技術と、ラジアルパッチマージのための極性位置エンコーディングを備えている。
本研究では,合成歪画像ネットデータを用いて分類課題の検証を行い,darswin が異なる広角レンズの非知覚歪みに対してゼロショット適応できることを示す。
他のベースラインと比較すると、DarSwinは(Top-1と-5の精度で)分配中のデータでテストすると、中(高い)歪みレベルにおいてTop-1の精度がほぼ2%(6%)向上し、低い歪みレベルと非常に低い歪みレベルの最先端に匹敵する結果が得られる。
関連論文リスト
- DarSwin-Unet: Distortion Aware Encoder-Decoder Architecture [13.412728770638465]
広角レンズの歪みに適応するエンコーダデコーダモデルを提案する。
分類タスクのみを実行するオリジナルのモデルとは対照的に,画素レベルのタスク用に設計されたU-NetアーキテクチャDarSwin-Unetを導入する。
提案手法により,広角魚眼画像における画素レベルのタスクを処理できるモデル能力が向上し,実世界への応用がより効果的になる。
論文 参考訳(メタデータ) (2024-07-24T14:52:18Z) - Convolution kernel adaptation to calibrated fisheye [45.90423821963144]
畳み込み核は畳み込みニューラルネットワーク(CNN)の基本構造成分である
本稿では,カメラのキャリブレーションを利用してコンボリューションカーネルを変形させ,歪みに適応させる手法を提案する。
小型のデータセットで簡単な微調整を施すことで,漁獲魚のネットワーク性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-02T14:44:50Z) - CNN Injected Transformer for Image Exposure Correction [20.282217209520006]
畳み込みに基づく以前の露光補正法は、しばしば画像の露光偏差を生じさせる。
本稿では,CNN と Transformer の個々の強度を同時に活用する CNN インジェクトトランス (CIT) を提案する。
露光補正のためのハイブリッドアーキテクチャ設計に加えて、空間コヒーレンスを改善し、潜在的な色偏差を補正するために、慎重に定式化された損失関数のセットを適用する。
論文 参考訳(メタデータ) (2023-09-08T14:53:00Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - A Deep Ordinal Distortion Estimation Approach for Distortion Rectification [62.72089758481803]
より高精度なパラメータを効率良く得る新しい歪み補正手法を提案する。
本研究では, 局所言語関連推定ネットワークを設計し, 順序歪みを学習し, 現実的な歪み分布を近似する。
歪み情報の冗長性を考慮すると,本手法では歪み画像の一部のみを用いて順序方向の歪み推定を行う。
論文 参考訳(メタデータ) (2020-07-21T10:03:42Z) - UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a
Generic Framework for Handling Common Camera Distortion Models [8.484676769284578]
本研究では,未修正単眼ビデオから深度,ユークリッド距離,および視覚計測を推定するための,汎用的な規模対応型自己教師パイプラインを提案する。
提案アルゴリズムは,KITTI修正データセットでさらに評価され,最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-07-13T20:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。