論文の概要: FisheyeHDK: Hyperbolic Deformable Kernel Learning for Ultra-Wide
Field-of-View Image Recognition
- arxiv url: http://arxiv.org/abs/2203.07255v1
- Date: Mon, 14 Mar 2022 16:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 19:10:19.190433
- Title: FisheyeHDK: Hyperbolic Deformable Kernel Learning for Ultra-Wide
Field-of-View Image Recognition
- Title(参考訳): FisheyeHDK:超広視野画像認識のための双曲型変形カーネル学習
- Authors: Ola Ahmad and Freddy Lecue
- Abstract要約: 狭視野(FoV)イメージに基づいてトレーニングされた従来の畳み込みニューラルネットワーク(CNN)は、オブジェクト認識タスクの最先端のアプローチである。
いくつかの手法は、変形可能なカーネルを学習することで、超広帯域FoV画像へのCNNの適応を提案した。
非ユークリッド空間における畳み込みカーネルの形状の学習は、既存の変形可能なカーネル法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.3655021726150367
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Conventional convolution neural networks (CNNs) trained on narrow
Field-of-View (FoV) images are the state-of-the-art approaches for object
recognition tasks. Some methods proposed the adaptation of CNNs to ultra-wide
FoV images by learning deformable kernels. However, they are limited by the
Euclidean geometry and their accuracy degrades under strong distortions caused
by fisheye projections. In this work, we demonstrate that learning the shape of
convolution kernels in non-Euclidean spaces is better than existing deformable
kernel methods. In particular, we propose a new approach that learns deformable
kernel parameters (positions) in hyperbolic space. FisheyeHDK is a hybrid CNN
architecture combining hyperbolic and Euclidean convolution layers for
positions and features learning. First, we provide an intuition of hyperbolic
space for wide FoV images. Using synthetic distortion profiles, we demonstrate
the effectiveness of our approach. We select two datasets - Cityscapes and
BDD100K 2020 - of perspective images which we transform to fisheye equivalents
at different scaling factors (analog to focal lengths). Finally, we provide an
experiment on data collected by a real fisheye camera. Validations and
experiments show that our approach improves existing deformable kernel methods
for CNN adaptation on fisheye images.
- Abstract(参考訳): 狭い視野(FoV)の画像に基づいて訓練された従来の畳み込みニューラルネットワーク(CNN)は、オブジェクト認識タスクの最先端のアプローチである。
いくつかの手法は、変形可能なカーネルを学習することで、超広帯域FoV画像へのCNNの適応を提案した。
しかし、ユークリッド幾何学によって制限され、魚眼投射による強い歪みの下でその精度は低下する。
本研究では,非ユークリッド空間における畳み込み核の形状の学習が,既存の変形可能なカーネル法よりも優れていることを示す。
特に,双曲空間における変形可能なカーネルパラメータ(配置)を学習する新しい手法を提案する。
fisheyehdkは、双曲型とユークリッド型の畳み込み層を組み合わせた、位置と特徴の学習のためのハイブリッドcnnアーキテクチャである。
まず,広焦点画像に対する双曲空間の直観的記述について述べる。
合成歪みプロファイルを用いて,本手法の有効性を示す。
cityscapesとbdd100k 2020という2つのデータセットを選択して,異なるスケーリング係数(焦点長を参照)で魚眼相当物に変換する。
最後に,魚眼カメラで収集したデータについて実験を行った。
検証と実験により,魚眼画像に対するcnn適応のための既存の変形可能なカーネル手法を改善した。
関連論文リスト
- Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving [4.720434481945155]
本研究では,近代的変形可能な畳み込みニューラルネットワーク(DCNN)のセマンティックセグメンテーションタスクへの応用について検討する。
実験では,WoodScapeの魚眼画像データセットを10種類の異なるクラスに分割し,複雑な空間関係を捉えるデフォルマブルネットワークの能力を評価する。
変形可能なCNNの統合によるmIoUスコアの大幅な改善は、魚眼画像に存在する幾何歪みを扱う上での有効性を示す。
論文 参考訳(メタデータ) (2024-07-23T17:02:24Z) - RoFIR: Robust Fisheye Image Rectification Framework Impervious to Optical Center Deviation [88.54817424560056]
局所歪みの度合いと方向を測定する歪みベクトルマップ(DVM)を提案する。
DVMを学習することで、大域的な歪みパターンに頼ることなく、各ピクセルの局所歪みを独立に識別することができる。
事前学習段階では、歪みベクトルマップを予測し、各画素の局所歪み特徴を知覚する。
微調整段階では、魚眼画像修正のための画素単位のフローマップを予測する。
論文 参考訳(メタデータ) (2024-06-27T06:38:56Z) - Convolution kernel adaptation to calibrated fisheye [45.90423821963144]
畳み込み核は畳み込みニューラルネットワーク(CNN)の基本構造成分である
本稿では,カメラのキャリブレーションを利用してコンボリューションカーネルを変形させ,歪みに適応させる手法を提案する。
小型のデータセットで簡単な微調整を施すことで,漁獲魚のネットワーク性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-02T14:44:50Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Adaptable Deformable Convolutions for Semantic Segmentation of Fisheye
Images in Autonomous Driving Systems [4.231909978425546]
標準画像に訓練されたCNNが魚眼画像に容易に適応できることを示した。
我々の適応プロトコルは主に、既存の層の上に変形可能な等価性を使用することで畳み込みのサポートを変更することに依存している。
論文 参考訳(メタデータ) (2021-02-19T22:47:44Z) - Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion [51.19260542887099]
カメラモデルの事前知識を必要とせずに、自己超越を用いて正確な深度とエゴモーション推定を学習できることが示される。
Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、ピクセルワイド射影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。
本研究では,多種多様なカメラシステムを用いて得られた生ビデオから,視覚計測の自己教師付き学習と深度推定にNRSを用いることを実証する。
論文 参考訳(メタデータ) (2020-08-15T02:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。