論文の概要: DarSwin: Distortion Aware Radial Swin Transformer
- arxiv url: http://arxiv.org/abs/2304.09691v4
- Date: Sun, 7 Jan 2024 09:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:57:57.747554
- Title: DarSwin: Distortion Aware Radial Swin Transformer
- Title(参考訳): darswin:歪みを考慮したラジアルスウィン変圧器
- Authors: Akshaya Athwale, Ichrak Shili, \'Emile Bergeron, Arman Afrasiyabi,
Justin Lag\"ue, Ola Ahmad and Jean-Fran\c{c}ois Lalonde
- Abstract要約: 広角レンズによる歪みを自動的に適応するトランスモデルを提案する。
また,DarSwinを,画素レベルのタスクに適したエンコーダデコーダアーキテクチャに拡張したDarSwin-Unetを提案する。
- 参考スコア(独自算出の注目度): 6.203563191691752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wide-angle lenses are commonly used in perception tasks requiring a large
field of view. Unfortunately, these lenses produce significant distortions,
making conventional models that ignore the distortion effects unable to adapt
to wide-angle images. In this paper, we present a novel transformer-based model
that automatically adapts to the distortion produced by wide-angle lenses. Our
proposed image encoder architecture, dubbed DarSwin, leverages the physical
characteristics of such lenses analytically defined by the radial distortion
profile. In contrast to conventional transformer-based architectures, DarSwin
comprises a radial patch partitioning, a distortion-based sampling technique
for creating token embeddings, and an angular position encoding for radial
patch merging. Compared to other baselines, DarSwin achieves the best results
on different datasets with significant gains when trained on bounded levels of
distortions (very low, low, medium, and high) and tested on all, including
out-of-distribution distortions. While the base DarSwin architecture requires
knowledge of the radial distortion profile, we show it can be combined with a
self-calibration network that estimates such a profile from the input image
itself, resulting in a completely uncalibrated pipeline. Finally, we also
present DarSwin-Unet, which extends DarSwin, to an encoder-decoder architecture
suitable for pixel-level tasks. We demonstrate its performance on depth
estimation and show through extensive experiments that DarSwin-Unet can perform
zero-shot adaptation to unseen distortions of different wide-angle lenses. The
code and models are publicly available at https://lvsn.github.io/darswin/
- Abstract(参考訳): 広角レンズは広い視野を必要とする知覚タスクで一般的に使用される。
残念ながら、これらのレンズは大きな歪みを生じさせ、歪み効果を無視する従来のモデルは広角画像に適応できない。
本稿では,広角レンズの歪みに自動的に適応する変圧器モデルを提案する。
提案した画像エンコーダアーキテクチャはDarSwinと呼ばれ、放射歪みプロファイルによって解析的に定義されたレンズの物理特性を利用する。
従来のトランスフォーマーベースのアーキテクチャとは対照的に、darswinはラジアルパッチパーティショニング、トークン埋め込みを作成するための歪みベースのサンプリング技術、ラジアルパッチマージのための角位置エンコーディングを備えている。
他のベースラインと比較して、darswinは、制限された歪み(非常に低い、低い、中、高い)のレベルをトレーニングして、分散の歪みを含むすべてをテストすると、さまざまなデータセットで最高の結果が得られる。
基礎となるdarswinアーキテクチャは放射歪プロファイルの知識を必要とするが、入力画像自体からそのようなプロファイルを推定する自己校正ネットワークと組み合わせることで、完全な非校正パイプラインが得られる。
最後に、DarSwinを拡張したDarSwin-Unetを、ピクセルレベルのタスクに適したエンコーダデコーダアーキテクチャに提示する。
本研究では,DarSwin-Unet による広角レンズの歪みに対するゼロショット適応が可能であることを示す。
コードとモデルはhttps://lvsn.github.io/darswin/で公開されている。
関連論文リスト
- DarSwin-Unet: Distortion Aware Encoder-Decoder Architecture [13.412728770638465]
広角レンズの歪みに適応するエンコーダデコーダモデルを提案する。
分類タスクのみを実行するオリジナルのモデルとは対照的に,画素レベルのタスク用に設計されたU-NetアーキテクチャDarSwin-Unetを導入する。
提案手法により,広角魚眼画像における画素レベルのタスクを処理できるモデル能力が向上し,実世界への応用がより効果的になる。
論文 参考訳(メタデータ) (2024-07-24T14:52:18Z) - Convolution kernel adaptation to calibrated fisheye [45.90423821963144]
畳み込み核は畳み込みニューラルネットワーク(CNN)の基本構造成分である
本稿では,カメラのキャリブレーションを利用してコンボリューションカーネルを変形させ,歪みに適応させる手法を提案する。
小型のデータセットで簡単な微調整を施すことで,漁獲魚のネットワーク性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-02T14:44:50Z) - CNN Injected Transformer for Image Exposure Correction [20.282217209520006]
畳み込みに基づく以前の露光補正法は、しばしば画像の露光偏差を生じさせる。
本稿では,CNN と Transformer の個々の強度を同時に活用する CNN インジェクトトランス (CIT) を提案する。
露光補正のためのハイブリッドアーキテクチャ設計に加えて、空間コヒーレンスを改善し、潜在的な色偏差を補正するために、慎重に定式化された損失関数のセットを適用する。
論文 参考訳(メタデータ) (2023-09-08T14:53:00Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - A Deep Ordinal Distortion Estimation Approach for Distortion Rectification [62.72089758481803]
より高精度なパラメータを効率良く得る新しい歪み補正手法を提案する。
本研究では, 局所言語関連推定ネットワークを設計し, 順序歪みを学習し, 現実的な歪み分布を近似する。
歪み情報の冗長性を考慮すると,本手法では歪み画像の一部のみを用いて順序方向の歪み推定を行う。
論文 参考訳(メタデータ) (2020-07-21T10:03:42Z) - UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a
Generic Framework for Handling Common Camera Distortion Models [8.484676769284578]
本研究では,未修正単眼ビデオから深度,ユークリッド距離,および視覚計測を推定するための,汎用的な規模対応型自己教師パイプラインを提案する。
提案アルゴリズムは,KITTI修正データセットでさらに評価され,最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-07-13T20:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。