論文の概要: DarSwin-Unet: Distortion Aware Encoder-Decoder Architecture
- arxiv url: http://arxiv.org/abs/2407.17328v1
- Date: Wed, 24 Jul 2024 14:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:34:51.548041
- Title: DarSwin-Unet: Distortion Aware Encoder-Decoder Architecture
- Title(参考訳): DarSwin-Unet: 歪みを意識したエンコーダ・デコーダアーキテクチャ
- Authors: Akshaya Athwale, Ichrak Shili, Émile Bergeron, Ola Ahmad, Jean-François Lalonde,
- Abstract要約: 広角レンズの歪みに適応するエンコーダデコーダモデルを提案する。
分類タスクのみを実行するオリジナルのモデルとは対照的に,画素レベルのタスク用に設計されたU-NetアーキテクチャDarSwin-Unetを導入する。
提案手法により,広角魚眼画像における画素レベルのタスクを処理できるモデル能力が向上し,実世界への応用がより効果的になる。
- 参考スコア(独自算出の注目度): 13.412728770638465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wide-angle fisheye images are becoming increasingly common for perception tasks in applications such as robotics, security, and mobility (e.g. drones, avionics). However, current models often either ignore the distortions in wide-angle images or are not suitable to perform pixel-level tasks. In this paper, we present an encoder-decoder model based on a radial transformer architecture that adapts to distortions in wide-angle lenses by leveraging the physical characteristics defined by the radial distortion profile. In contrast to the original model, which only performs classification tasks, we introduce a U-Net architecture, DarSwin-Unet, designed for pixel level tasks. Furthermore, we propose a novel strategy that minimizes sparsity when sampling the image for creating its input tokens. Our approach enhances the model capability to handle pixel-level tasks in wide-angle fisheye images, making it more effective for real-world applications. Compared to other baselines, DarSwin-Unet achieves the best results across different datasets, with significant gains when trained on bounded levels of distortions (very low, low, medium, and high) and tested on all, including out-of-distribution distortions. We demonstrate its performance on depth estimation and show through extensive experiments that DarSwin-Unet can perform zero-shot adaptation to unseen distortions of different wide-angle lenses.
- Abstract(参考訳): 広角魚眼画像は、ロボット工学、セキュリティ、モビリティ(例えばドローン、アビオニクス)などのアプリケーションにおける知覚タスクにおいて、ますます一般的なものになりつつある。
しかし、現在のモデルは広角画像の歪みを無視したり、ピクセルレベルのタスクを実行するのに適さない場合が多い。
本稿では、広角レンズの歪みに適応するラジアル変圧器アーキテクチャに基づくエンコーダ・デコーダモデルを提案する。
分類タスクのみを実行するオリジナルのモデルとは対照的に,画素レベルのタスク用に設計されたU-NetアーキテクチャDarSwin-Unetを導入する。
さらに,入力トークンを作成するために画像のサンプリングを行う際の空間幅を最小化する新しい手法を提案する。
提案手法により,広角魚眼画像における画素レベルのタスクを処理できるモデル能力が向上し,実世界への応用がより効果的になる。
他のベースラインと比較すると、DarSwin-Unetは、さまざまなデータセットで最高の結果を達成する。
本研究では,DarSwin-Unet による広角レンズの歪みに対するゼロショット適応が可能であることを示す。
関連論文リスト
- HEAL-SWIN: A Vision Transformer On The Sphere [4.379414115481346]
高解像度の広角魚眼画像は、自律運転などのロボティクス応用においてますます重要になっている。
天体物理学や宇宙論で用いられる高度に均一な階層的等角領域等緯線線格子を組み合わせたHEAL-SWIN変換器を提案する。
HEAL-SWINでは、HEALPixグリッドのネスト構造を用いてSWIN変換器のパッチ処理とウィンドウ処理を行い、最小計算オーバーヘッドで球面表現を処理できる。
論文 参考訳(メタデータ) (2023-07-14T12:46:59Z) - DarSwin: Distortion Aware Radial Swin Transformer [15.110063221436155]
広角レンズによる歪みを自動的に適応するトランスモデルを提案する。
また,DarSwinを,画素レベルのタスクに適したエンコーダデコーダアーキテクチャに拡張したDarSwin-Unetを提案する。
論文 参考訳(メタデータ) (2023-04-19T14:32:56Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Single Image Automatic Radial Distortion Compensation Using Deep
Convolutional Network [0.12891210250935145]
本稿では,深部畳み込みニューラルネットワークに基づく単一像の自動レンズ歪み補正法を提案する。
本手法は,スポーツ放送のアプリケーション領域で動作する放射歪みモデルの2つの高次係数を用いて,実時間性能と精度を向上する。
論文 参考訳(メタデータ) (2021-12-14T13:04:03Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Adaptable Deformable Convolutions for Semantic Segmentation of Fisheye
Images in Autonomous Driving Systems [4.231909978425546]
標準画像に訓練されたCNNが魚眼画像に容易に適応できることを示した。
我々の適応プロトコルは主に、既存の層の上に変形可能な等価性を使用することで畳み込みのサポートを変更することに依存している。
論文 参考訳(メタデータ) (2021-02-19T22:47:44Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。