論文の概要: Möbius Transform for Mitigating Perspective Distortions in Representation Learning
- arxiv url: http://arxiv.org/abs/2405.02296v1
- Date: Thu, 7 Mar 2024 15:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 11:09:59.111278
- Title: Möbius Transform for Mitigating Perspective Distortions in Representation Learning
- Title(参考訳): 表現学習における視点歪みの緩和のためのメビウス変換
- Authors: Prakash Chandra Chhipa, Meenakshi Subhash Chippa, Kanjar De, Rajkumar Saini, Marcus Liwicki, Mubarak Shah,
- Abstract要約: パースペクティブ歪み(PD)は、画像の形状、大きさ、向き、角度、その他の空間的関係に前例のない変化を引き起こす。
M"オビウス変換の特定の族に対して,パラメータ制御を微粒化することにより,MPDを緩和する手法を提案する。
我々は,この新たなデータセットに対して,ディープラーニングモデルの堅牢性を評価するために,視点的に歪んだベンチマークデータセットであるImageNet-PDを提案する。
- 参考スコア(独自算出の注目度): 43.86985901138407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perspective distortion (PD) causes unprecedented changes in shape, size, orientation, angles, and other spatial relationships of visual concepts in images. Precisely estimating camera intrinsic and extrinsic parameters is a challenging task that prevents synthesizing perspective distortion. Non-availability of dedicated training data poses a critical barrier to developing robust computer vision methods. Additionally, distortion correction methods make other computer vision tasks a multi-step approach and lack performance. In this work, we propose mitigating perspective distortion (MPD) by employing a fine-grained parameter control on a specific family of M\"obius transform to model real-world distortion without estimating camera intrinsic and extrinsic parameters and without the need for actual distorted data. Also, we present a dedicated perspectively distorted benchmark dataset, ImageNet-PD, to benchmark the robustness of deep learning models against this new dataset. The proposed method outperforms on existing benchmarks, ImageNet-E and ImageNet-X. Additionally, it significantly improves performance on ImageNet-PD while consistently performing on standard data distribution. Further, our method shows improved performance on three PD-affected real-world applications: crowd counting, fisheye image recognition, and person re-identification. We will release source code, dataset, and models for foster further research.
- Abstract(参考訳): 視線歪み(PD)は、画像における視覚概念の形状、大きさ、方向、角度、その他の空間的関係に前例のない変化を引き起こす。
カメラ内在パラメータと外在パラメータを正確に推定することは、視点歪みの合成を防止するための課題である。
専用トレーニングデータの非可用性は、堅牢なコンピュータビジョン手法を開発する上で重要な障壁となる。
さらに、歪み補正法は、他のコンピュータビジョンタスクを多段階的なアプローチとし、性能を欠いている。
本研究では,M\\\obius変換の特定のファミリーに対して,カメラ内在パラメータや外在パラメータを推定することなく,実世界の歪みをモデル化するための細粒度パラメータ制御を用いることにより,MPDを緩和する手法を提案する。
また、この新たなデータセットに対してディープラーニングモデルの堅牢性を評価するために、視点的に歪んだベンチマークデータセットであるImageNet-PDを提案する。
提案手法は既存のベンチマークである ImageNet-E と ImageNet-X より優れている。
さらに、ImageNet-PDのパフォーマンスが大幅に向上し、標準データ分散でも一貫してパフォーマンスが向上する。
さらに,本手法は,3つのPD影響実世界のアプリケーション(群集カウント,魚眼画像認識,人物再識別)の性能向上を示す。
さらなる研究を促進するために、ソースコード、データセット、モデルをリリースします。
関連論文リスト
- LCM: Log Conformal Maps for Robust Representation Learning to Mitigate Perspective Distortion [6.486569431242123]
ログ・コンフォーマル・マップ (LCM) は、視点歪みを少ないパラメータで近似し、計算複雑性を小さくすることを示した。
LCMは、教師付きおよび自己教師型表現学習とよく統合されており、標準モデルよりも優れており、視点歪みを緩和する上での最先端のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2024-09-20T18:07:47Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文 参考訳(メタデータ) (2022-10-08T03:06:49Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Camera Distortion-aware 3D Human Pose Estimation in Video with
Optimization-based Meta-Learning [23.200130129530653]
歪みのないデータセットでトレーニングされた既存の3次元ポーズ推定アルゴリズムは、特定のカメラ歪みのある新しいシナリオに適用した場合、パフォーマンス低下を被る。
本研究では, 歪み環境に迅速に適応できる簡易かつ効果的な3次元ポーズ推定モデルを提案する。
論文 参考訳(メタデータ) (2021-11-30T01:35:04Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - A Deep Ordinal Distortion Estimation Approach for Distortion Rectification [62.72089758481803]
より高精度なパラメータを効率良く得る新しい歪み補正手法を提案する。
本研究では, 局所言語関連推定ネットワークを設計し, 順序歪みを学習し, 現実的な歪み分布を近似する。
歪み情報の冗長性を考慮すると,本手法では歪み画像の一部のみを用いて順序方向の歪み推定を行う。
論文 参考訳(メタデータ) (2020-07-21T10:03:42Z) - UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a
Generic Framework for Handling Common Camera Distortion Models [8.484676769284578]
本研究では,未修正単眼ビデオから深度,ユークリッド距離,および視覚計測を推定するための,汎用的な規模対応型自己教師パイプラインを提案する。
提案アルゴリズムは,KITTI修正データセットでさらに評価され,最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-07-13T20:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。