論文の概要: LCM: Log Conformal Maps for Robust Representation Learning to Mitigate Perspective Distortion
- arxiv url: http://arxiv.org/abs/2410.03686v2
- Date: Tue, 8 Oct 2024 15:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 20:48:16.537185
- Title: LCM: Log Conformal Maps for Robust Representation Learning to Mitigate Perspective Distortion
- Title(参考訳): LCM:視点歪み軽減のためのロバスト表現学習のためのログコンフォーマルマップ
- Authors: Meenakshi Subhash Chippa, Prakash Chandra Chhipa, Kanjar De, Marcus Liwicki, Rajkumar Saini,
- Abstract要約: ログ・コンフォーマル・マップ (LCM) は、視点歪みを少ないパラメータで近似し、計算複雑性を小さくすることを示した。
LCMは、教師付きおよび自己教師型表現学習とよく統合されており、標準モデルよりも優れており、視点歪みを緩和する上での最先端のパフォーマンスと一致している。
- 参考スコア(独自算出の注目度): 6.486569431242123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perspective distortion (PD) leads to substantial alterations in the shape, size, orientation, angles, and spatial relationships of visual elements in images. Accurately determining camera intrinsic and extrinsic parameters is challenging, making it hard to synthesize perspective distortion effectively. The current distortion correction methods involve removing distortion and learning vision tasks, thus making it a multi-step process, often compromising performance. Recent work leverages the M\"obius transform for mitigating perspective distortions (MPD) to synthesize perspective distortions without estimating camera parameters. M\"obius transform requires tuning multiple interdependent and interrelated parameters and involving complex arithmetic operations, leading to substantial computational complexity. To address these challenges, we propose Log Conformal Maps (LCM), a method leveraging the logarithmic function to approximate perspective distortions with fewer parameters and reduced computational complexity. We provide a detailed foundation complemented with experiments to demonstrate that LCM with fewer parameters approximates the MPD. We show that LCM integrates well with supervised and self-supervised representation learning, outperform standard models, and matches the state-of-the-art performance in mitigating perspective distortion over multiple benchmarks, namely Imagenet-PD, Imagenet-E, and Imagenet-X. Further LCM demonstrate seamless integration with person re-identification and improved the performance. Source code is made publicly available at https://github.com/meenakshi23/Log-Conformal-Maps.
- Abstract(参考訳): パースペクティブ歪み(PD)は、画像中の視覚要素の形状、大きさ、方向、角度、空間的関係を著しく変化させる。
カメラ固有のパラメータと外部パラメータを正確に決定することは困難であり、視点歪みを効果的に合成することが困難である。
現在の歪み補正法では、歪みを除去し、視覚タスクを学習する。
最近の研究は、視点歪み(MPD)を緩和するM\オビウス変換を利用して、カメラパラメータを推定することなく視点歪みを合成している。
M\"obius transform は、複数の相互依存および相互関連パラメータをチューニングし、複雑な算術演算を伴って、かなりの計算複雑性をもたらす。
これらの課題に対処するために,対数関数を利用した対数関数を用いた対数変換法であるログ・コンフォーマル・マップ(LCM)を提案する。
より少ないパラメータのLCMがMPDに近似することを示す実験を補完する詳細な基礎を提供する。
LCMは教師付きおよび自己教師型表現学習とよく統合されており、標準モデルより優れており、複数のベンチマーク(Imagenet-PD, Imagenet-E, Imagenet-X)上での視点歪みの緩和における最先端の性能と一致している。
さらにLCMは、人物の再識別とシームレスな統合を示し、性能を改善した。
ソースコードはhttps://github.com/meenakshi23/Log-Conformal-Mapsで公開されている。
関連論文リスト
- Scalable Visual State Space Model with Fractal Scanning [16.077348474371547]
State Space Models (SSM) はTransformerモデルの効率的な代替品として登場した。
本稿では, フラクタル走査曲線を用いたパッチシリアライゼーションを提案する。
画像分類,検出,セグメンテーションタスクにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:12:11Z) - Möbius Transform for Mitigating Perspective Distortions in Representation Learning [43.86985901138407]
パースペクティブ歪み(PD)は、画像の形状、大きさ、向き、角度、その他の空間的関係に前例のない変化を引き起こす。
M"オビウス変換の特定の族に対して,パラメータ制御を微粒化することにより,MPDを緩和する手法を提案する。
我々は,この新たなデータセットに対して,ディープラーニングモデルの堅牢性を評価するために,視点的に歪んだベンチマークデータセットであるImageNet-PDを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:39:00Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Image Deformation Estimation via Multi-Objective Optimization [13.159751065619544]
自由形変形モデルは、画像上の制御点格子を操作することにより、幅広い非剛体変形を表現することができる。
フィットネスランドスケープの複雑さのため,変形画像にモデルを直接適合させることは困難である。
論文 参考訳(メタデータ) (2021-06-08T06:52:12Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - ProAlignNet : Unsupervised Learning for Progressively Aligning Noisy
Contours [12.791313859673187]
ProAlignNetは、輪郭形状間の大規模なミスアライメントと複雑な変換を説明できる。
近接感度および局所形状依存類似度測定値の上界から導出される新しい損失関数を用いて学習する。
実世界の2つの応用において、提案したモデルは最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2020-05-23T14:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。