論文の概要: PIDLoc: Cross-View Pose Optimization Network Inspired by PID Controllers
- arxiv url: http://arxiv.org/abs/2503.02388v1
- Date: Tue, 04 Mar 2025 08:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:54.820586
- Title: PIDLoc: Cross-View Pose Optimization Network Inspired by PID Controllers
- Title(参考訳): PIDLoc:PIDコントローラにインスパイアされたクロスビューポーズ最適化ネットワーク
- Authors: Wooju Lee, Juhye Park, Dasol Hong, Changki Sung, Youngwoo Seo, Dongwan Kang, Hyun Myung,
- Abstract要約: PIDLocは、比例積分微分(PID)コントローラにインスパイアされた、新しいクロスビューポーズ最適化手法である。
PIDLOCは、KITTIデータセットのクロスビューポーズ推定において最先端のパフォーマンスを達成し、以前の最先端と比較して位置誤差を37.8%削減する。
- 参考スコア(独自算出の注目度): 7.582581416640314
- License:
- Abstract: Accurate localization is essential for autonomous driving, but GNSS-based methods struggle in challenging environments such as urban canyons. Cross-view pose optimization offers an effective solution by directly estimating vehicle pose using satellite-view images. However, existing methods primarily rely on cross-view features at a given pose, neglecting fine-grained contexts for precision and global contexts for robustness against large initial pose errors. To overcome these limitations, we propose PIDLoc, a novel cross-view pose optimization approach inspired by the proportional-integral-derivative (PID) controller. Using RGB images and LiDAR, the PIDLoc comprises the PID branches to model cross-view feature relationships and the spatially aware pose estimator (SPE) to estimate the pose from these relationships. The PID branches leverage feature differences for local context (P), aggregated feature differences for global context (I), and gradients of feature differences for precise pose adjustment (D) to enhance localization accuracy under large initial pose errors. Integrated with the PID branches, the SPE captures spatial relationships within the PID-branch features for consistent localization. Experimental results demonstrate that the PIDLoc achieves state-of-the-art performance in cross-view pose estimation for the KITTI dataset, reducing position error by $37.8\%$ compared with the previous state-of-the-art.
- Abstract(参考訳): 正確なローカライゼーションは自動運転に不可欠であるが、GNSSベースの手法は都市キャニオンのような挑戦的な環境に苦しむ。
クロスビューポーズ最適化は、衛星ビュー画像を用いて車両ポーズを直接推定することにより、効果的なソリューションを提供する。
しかし、既存の手法は主に特定のポーズにおけるクロスビュー機能に依存しており、精度の細かいコンテキストと大規模な初期ポーズエラーに対するロバストネスのグローバルコンテキストを無視している。
これらの制限を克服するために,比例積分微分(PID)コントローラにインスパイアされた新しいクロスビューポーズ最適化手法PIDLocを提案する。
RGB画像とLiDARを用いて、PIDLocは、PIDブランチを使用して、横断的な特徴関係をモデル化し、空間的に認識されたポーズ推定器(SPE)を用いて、これらの関係からポーズを推定する。
PIDブランチは、局所的コンテキスト(P)における特徴差、グローバル的コンテキスト(I)における特徴差の集約、高精度ポーズ調整(D)のための特徴差の勾配を利用して、大規模な初期ポーズエラー下での局所化精度を向上させる。
PIDブランチと統合されたSPEは、一貫したローカライゼーションのためにPIDブランチ機能内の空間的関係をキャプチャする。
実験結果から,PIDLOCはKITTIデータセットのクロスビューポーズ推定において最先端性能を達成し,従来と比べ37.8 %の精度で位置誤差を低減した。
関連論文リスト
- Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Reducing Semantic Ambiguity In Domain Adaptive Semantic Segmentation Via Probabilistic Prototypical Pixel Contrast [7.092718945468069]
ドメイン適応は、ソースとターゲットドメイン間のドメインシフトに起因するターゲットドメインのモデル劣化を低減することを目的としています。
確率的原型画素コントラスト(probabilistic proto-typeal pixel contrast、PPPC)は、各画素の埋め込みを確率としてモデル化する普遍的な適応フレームワークである。
PPPCは、画素レベルでの曖昧さに対処するだけでなく、識別的表現をもたらすだけでなく、合成からリアルタイム、および日毎の適応タスクにおいて大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-09-27T08:25:03Z) - SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - Poses as Queries: Image-to-LiDAR Map Localization with Transformers [5.704968411509063]
商用化による高精度車両のローカライゼーションは、高レベルの自動運転タスクにとって重要な技術である。
このようなクロスモーダルセンサデータ間の対応を見出すことによる推定ポーズは困難である。
本稿では,トランスフォーマーをベースとした新しいニューラルネットワークを提案し,エンドツーエンドで2次元画像を3次元LiDARマップに登録する。
論文 参考訳(メタデータ) (2023-05-07T14:57:58Z) - Relation Matters: Foreground-aware Graph-based Relational Reasoning for
Domain Adaptive Object Detection [81.07378219410182]
我々は、FGRR(Fearground-aware Graph-based Reasoning)というドメインDのための新しい汎用フレームワークを提案する。
FGRRはグラフ構造を検出パイプラインに組み込んで、ドメイン内およびドメイン間フォアグラウンドオブジェクト関係を明示的にモデル化する。
実験の結果、提案したFGRRは4つのDomainDベンチマークの最先端よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-06-06T05:12:48Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Improving the generalization of network based relative pose regression:
dimension reduction as a regularizer [16.63174637692875]
最先端のビジュアルローカライゼーション手法は、RANSACフレームワーク内の幾何に基づく解法を用いてポーズ推定を行う。
エンドツーエンドの学習に基づく回帰ネットワークは、正確なピクセルレベルの対応の要求を回避するためのソリューションを提供する。
本稿では,絶対像特徴値からポーズ回帰解法を分離するために,ネットワーク内に学習可能なマッチング層を明示的に追加する。
我々はこの次元正規化戦略を2層ピラミッドベースのフレームワークで実装し、局所化結果を粗いものから細かいものへと回帰する。
論文 参考訳(メタデータ) (2020-10-24T06:20:46Z) - Light Field Spatial Super-resolution via Deep Combinatorial Geometry
Embedding and Structural Consistency Regularization [99.96632216070718]
ハンドヘルドデバイスが取得した光フィールド(LF)画像は通常、空間分解能の低下に悩まされる。
LF画像の高次元空間特性と複雑な幾何学構造は、従来の単一像SRよりも問題をより困難にしている。
本稿では,LF画像の各ビューを個別に超解答する新しい学習ベースLFフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-05T14:39:57Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。