論文の概要: Relative Pose Regression with Pose Auto-Encoders: Enhancing Accuracy and Data Efficiency for Retail Applications
- arxiv url: http://arxiv.org/abs/2508.10933v1
- Date: Tue, 12 Aug 2025 18:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.585063
- Title: Relative Pose Regression with Pose Auto-Encoders: Enhancing Accuracy and Data Efficiency for Retail Applications
- Title(参考訳): ポースオートエンコーダによる相対的ポース回帰:小売アプリケーションにおける精度とデータ効率の向上
- Authors: Yoli Shavit, Yosi Keller,
- Abstract要約: カメラポッドオートエンコーダ(PAE)をRPR(Relative Pose Regression)に拡張する。
画像の保存やポーズデータの追加を必要とせず、PAEベースのRPRを用いてAPR予測を洗練させる新しい再局在方式を提案する。
本手法は, データの30%をトレーニングしても, 競争性能が向上し, 小売展開におけるデータ収集の負担が大幅に軽減されることが示唆された。
- 参考スコア(独自算出の注目度): 18.699928203291044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate camera localization is crucial for modern retail environments, enabling enhanced customer experiences, streamlined inventory management, and autonomous operations. While Absolute Pose Regression (APR) from a single image offers a promising solution, approaches that incorporate visual and spatial scene priors tend to achieve higher accuracy. Camera Pose Auto-Encoders (PAEs) have recently been introduced to embed such priors into APR. In this work, we extend PAEs to the task of Relative Pose Regression (RPR) and propose a novel re-localization scheme that refines APR predictions using PAE-based RPR, without requiring additional storage of images or pose data. We first introduce PAE-based RPR and establish its effectiveness by comparing it with image-based RPR models of equivalent architectures. We then demonstrate that our refinement strategy, driven by a PAE-based RPR, enhances APR localization accuracy on indoor benchmarks. Notably, our method is shown to achieve competitive performance even when trained with only 30% of the data, substantially reducing the data collection burden for retail deployment. Our code and pre-trained models are available at: https://github.com/yolish/camera-pose-auto-encoders
- Abstract(参考訳): 正確なカメラのローカライゼーションは、顧客エクスペリエンスの向上、在庫管理の合理化、自律的な運用を可能にする、現代の小売環境にとって不可欠である。
APR(Absolute Pose Regression)はひとつのイメージから得られるもので、将来性のあるソリューションを提供する。
カメラ・ポーズ・オート・エンコーダ(PAE)が最近導入され、APRに組み込まれている。
本研究では,PAEをRPR(Relative Pose Regression)タスクに拡張し,画像の保存やポーズデータの追加を必要とせず,PAEベースのRPRを用いてAPP予測を洗練させる手法を提案する。
まず,PAEをベースとしたRPRを導入し,それと等価なアーキテクチャのイメージベースRPRモデルとの比較により,その有効性を確立した。
PAEベースのRPRによって駆動される改良戦略は、屋内ベンチマークにおけるAPRのローカライズ精度を高めることを実証する。
特に,データの30%をトレーニングしても競争性能が向上し,小売展開におけるデータ収集の負担が大幅に軽減されることがわかった。
私たちのコードと事前トレーニングされたモデルは、https://github.com/yolish/camera-pose-auto-encodersで利用可能です。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。
本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。
効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-23T15:01:09Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - HR-APR: APR-agnostic Framework with Uncertainty Estimation and Hierarchical Refinement for Camera Relocalisation [12.333674270678552]
APR(Absolute Pose Regressors)は、モノクロ画像から直接カメラのポーズを推定するが、その精度は異なるクエリに対して不安定である。
不確かさを意識したAPRは、推定されたポーズに関する不確実な情報を提供し、これらの信頼できない予測の影響を軽減する。
本研究では,クエリとデータベースの特徴間のコサイン類似度推定として不確実性推定を定式化する新しいAPR非依存フレームワークHR-APRを紹介する。
論文 参考訳(メタデータ) (2024-02-22T08:21:46Z) - KS-APR: Keyframe Selection for Robust Absolute Pose Regression [2.541264438930729]
Markerless Mobile Augmented Reality (AR)は、特定の2Dや3Dオブジェクトを使わずに、物理的な世界でデジタルコンテンツを固定することを目的としている。
エンドツーエンドの機械学習ソリューションは、単一の単眼画像からデバイスのポーズを推測する。
APR法は、トレーニングセットから遠すぎる入力画像に対して重大な不正確性をもたらす傾向がある。
本稿では,推定ポーズの信頼性を最小限のオーバーヘッドで評価するパイプラインKS-APRを紹介する。
論文 参考訳(メタデータ) (2023-08-10T09:32:20Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Learning to Localize in Unseen Scenes with Relative Pose Regressors [5.672132510411465]
相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
論文 参考訳(メタデータ) (2023-03-05T17:12:50Z) - Camera Pose Auto-Encoders for Improving Pose Regression [6.700873164609009]
カメラポーズオートエンコーダ(PAE)を導入し,APRを教師として用いたカメラポーズをエンコードする。
得られた潜在ポーズ表現は、APRのパフォーマンスを密に再現し、関連するタスクに対してそれらの効果を示すことができることを示す。
また、学習したポーズエンコーディングから列車画像の再構成が可能であることを示し、低メモリで設定した列車の視覚情報を統合する方法について検討した。
論文 参考訳(メタデータ) (2022-07-12T13:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。