論文の概要: Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens
- arxiv url: http://arxiv.org/abs/2508.04928v1
- Date: Wed, 06 Aug 2025 23:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.660949
- Title: Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens
- Title(参考訳): 校正トークン付き魚眼カメラに対する基礎的単眼深度推定器の拡張
- Authors: Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong,
- Abstract要約: 魚眼画像に対する基礎的単眼深度推定器(FMDE)の拡張手法を提案する。
本手法は,魚眼画像と視線画像とを符号化した潜伏埋め込みの分布を一致させる。
- 参考スコア(独自算出の注目度): 8.197905977697552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cameras without retraining or finetuning. To this end, we introduce a set of Calibration Tokens as a light-weight adaptation mechanism that modulates the latent embeddings for alignment. By exploiting the already expressive latent space of FMDEs, we posit that modulating their embeddings avoids the negative impact of artifacts and loss introduced in conventional recalibration or map projection to a canonical reference frame in the image space. Our method is self-supervised and does not require fisheye images but leverages publicly available large-scale perspective image datasets. This is done by recalibrating perspective images to fisheye images, and enforcing consistency between their estimates during training. We evaluate our approach with several FMDEs, on both indoors and outdoors, where we consistently improve over state-of-the-art methods using a single set of tokens for both. Code available at: https://github.com/JungHeeKim29/calibration-token.
- Abstract(参考訳): 本研究では,視線画像に基づいて訓練された基礎的単眼深度推定器(FMDE)を魚眼画像に拡張する手法を提案する。
何千万もの画像で訓練されているにもかかわらず、FMDEはカメラキャリブレーション(内在的、歪み)パラメータの変化によって引き起こされる共変量シフトの影響を受け、誤った深さ推定につながる。
魚眼画像と魚眼画像とを符号化した潜伏埋め込みの分布を一致させ,魚眼カメラのFMDEの再利用を可能にする。
そこで本研究では,アライメントのための潜伏埋め込みを変調する軽量適応機構として,キャリブレーショントークンのセットを導入する。
FMDEの表現力に富んだ潜在空間を利用することで,画像空間内の標準参照フレームへの従来の再校正やマップ投影で導入されたアーティファクトや損失の負の影響を回避することができると仮定する。
本手法は,魚眼画像を必要としないが,一般公開された大規模視点画像データセットを活用する。
これは、視点画像を魚眼画像に再分類し、トレーニング中の推定値間の一貫性を強制することで実現される。
我々は屋内と屋外の両方でFMDEによるアプローチを評価し、そこでは1組のトークンを用いて最先端の手法を一貫して改善する。
コードは、https://github.com/JungHeeKim29/calibration-token.comで入手できる。
関連論文リスト
- FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera [8.502741852406904]
魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。
魚眼カメラモデルを訓練中の投射と再投射の段階に組み込んで画像歪みの処理を行う。
また、連続するフレーム間の幾何学的投影に実際のポーズ情報を組み込んで、従来のポーズネットワークで推定されたポーズを置き換える。
論文 参考訳(メタデータ) (2024-09-23T14:31:42Z) - RoFIR: Robust Fisheye Image Rectification Framework Impervious to Optical Center Deviation [88.54817424560056]
局所歪みの度合いと方向を測定する歪みベクトルマップ(DVM)を提案する。
DVMを学習することで、大域的な歪みパターンに頼ることなく、各ピクセルの局所歪みを独立に識別することができる。
事前学習段階では、歪みベクトルマップを予測し、各画素の局所歪み特徴を知覚する。
微調整段階では、魚眼画像修正のための画素単位のフローマップを予測する。
論文 参考訳(メタデータ) (2024-06-27T06:38:56Z) - RecDiffusion: Rectangling for Image Stitching with Diffusion Models [53.824503710254206]
画像縫合整形のための新しい拡散学習フレームワーク textbfRecDiffusion を提案する。
このフレームワークは運動拡散モデル(MDM)を組み合わせて運動場を生成し、縫合された画像の不規則な境界から幾何学的に修正された中間体へ効果的に遷移する。
論文 参考訳(メタデータ) (2024-03-28T06:22:45Z) - Deep Single Image Camera Calibration by Heatmap Regression to Recover Fisheye Images Under Manhattan World Assumption [9.018416031676136]
立方体建物に沿って横たわるマンハッタンの世界は、カメラの角度推定に役立ちます。
ラベル付き画像座標の向きを検出するために,熱マップ回帰を用いた学習に基づく校正手法を提案する。
提案手法は,大規模データセットやオフザシェルフカメラにおいて,従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-30T05:57:59Z) - Sector Patch Embedding: An Embedding Module Conforming to The Distortion
Pattern of Fisheye Image [23.73394258521532]
本稿では,魚眼画像の歪みパターンに応じて,セクタパッチ埋め込み(SPE)と呼ばれる新しいパッチ埋め込み手法を提案する。
ViTとPVTの分類トップ1の精度は、それぞれ0.75%、SPEは2.8%向上した。
本手法は他のTransformerベースのモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2023-03-26T07:20:02Z) - When the Sun Goes Down: Repairing Photometric Losses for All-Day Depth
Estimation [47.617222712429026]
既存の測光損失を昼夜両方の画像に有効にするための3つの手法の組み合わせについて述べる。
まず、連続するフレーム間で起こる光の変化を補うために、ピクセルごとの神経強度変換を導入する。
第2に,推定エゴモーションと深度によって引き起こされる再投影対応を補正するために,画素ごとの残留フローマップを推定する。
論文 参考訳(メタデータ) (2022-06-28T09:29:55Z) - FisheyeEX: Polar Outpainting for Extending the FoV of Fisheye Lens [84.12722334460022]
魚眼レンズは、広視野(FoV)のため、計算写真や運転支援における応用が増大する
本稿では,魚眼レンズのFoVを拡張した魚眼EX法を提案する。
以上の結果から,本手法は従来の魚眼画像よりも27%多く,最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-06-12T21:38:50Z) - Relighting Images in the Wild with a Self-Supervised Siamese
Auto-Encoder [62.580345486483886]
本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。
この方法は、イメージを2つの別々のエンコーディングに分解するオートエンコーダに基づいている。
Youtube 8MやCelebAなどの大規模データセットでモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-12-11T16:08:50Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。