論文の概要: ShelfRectNet: Single View Shelf Image Rectification with Homography Estimation
- arxiv url: http://arxiv.org/abs/2511.20335v1
- Date: Tue, 25 Nov 2025 14:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.498646
- Title: ShelfRectNet: Single View Shelf Image Rectification with Homography Estimation
- Title(参考訳): ShelfRectNet:ホログラフィー推定による単一視野シェルフ画像再構成
- Authors: Onur Berk Tore, Ibrahim Samil Yalciner, Server Calap,
- Abstract要約: 任意の角度から取得した棚画像の修正のために, 4点パラメタライズド・ホモグラフィ行列を推定する深層学習フレームワークを提案する。
本手法は,テストセット上の1.298ピクセルの平均角誤差を実現する。
この領域でのさらなる研究を促進するため、データセット、ShelfRectSet、およびコードを公開します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating homography from a single image remains a challenging yet practically valuable task, particularly in domains like retail, where only one viewpoint is typically available for shelf monitoring and product alignment. In this paper, we present a deep learning framework that predicts a 4-point parameterized homography matrix to rectify shelf images captured from arbitrary angles. Our model leverages a ConvNeXt-based backbone for enhanced feature representation and adopts normalized coordinate regression for improved stability. To address data scarcity and promote generalization, we introduce a novel augmentation strategy by modeling and sampling synthetic homographies. Our method achieves a mean corner error of 1.298 pixels on the test set. When compared with both classical computer vision and deep learning-based approaches, our method demonstrates competitive performance in both accuracy and inference speed. Together, these results establish our approach as a robust and efficient solution for realworld single-view rectification. To encourage further research in this domain, we will make our dataset, ShelfRectSet, and code publicly available
- Abstract(参考訳): 単一の画像からホモグラフィーを推定することは、特に小売のようなドメインでは、難しいが実用上価値のある作業であり、棚の監視や製品アライメントに一般的に利用できるのは1つの視点のみである。
本稿では,任意の角度から取得したシェルフ画像を修正するための4点パラメタライズド・ホモグラフィ行列を予測するディープラーニングフレームワークを提案する。
本モデルでは,ConvNeXtベースのバックボーンを用いて特徴表現を改良し,安定性向上のために正規化座標回帰を採用する。
データ不足に対処し、一般化を促進するために、合成ホモグラフィーをモデリングし、サンプリングすることで、新しい拡張戦略を導入する。
本手法は,テストセット上の1.298ピクセルの平均角誤差を実現する。
従来のコンピュータビジョンとディープラーニングベースのアプローチを比較して,精度と推論速度の両面での競合性能を示す。
これらの結果は、現実の単一ビューの修正のための堅牢で効率的なソリューションとして、我々のアプローチを確立します。
この領域のさらなる研究を促進するため、私たちはデータセット、ShelfRectSet、およびコードを公開します。
関連論文リスト
- Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World [8.56549004133167]
ステレオマッチング法は、密度の高いピクセル単位の基底真理ラベルに依存している。
ラベル付きデータの不足と、合成画像と実世界の画像のドメインギャップは、注目すべき課題である。
視覚基盤モデルと大規模混合画像ソースの両方を活用する新しいフレームワーク textbfBooSTer を提案する。
論文 参考訳(メタデータ) (2025-05-13T14:24:38Z) - Co-op: Correspondence-based Novel Object Pose Estimation [14.598853174946656]
Co-opは、単一のRGB画像からトレーニング中に見えない物体の6DoFポーズを正確かつ堅牢に推定する新しい方法である。
本手法では,対象オブジェクトのCADモデルのみを必要としており,追加の微調整を伴わずにそのポーズを正確に推定することができる。
論文 参考訳(メタデータ) (2025-03-22T11:24:19Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation [30.710296843150832]
画像間の相対的なカメラのポーズを推定することは、コンピュータビジョンにおいて中心的な問題となっている。
私たちのアプローチは、正確かつ堅牢な結果をもたらします。
包括的解析は設計選択をサポートし,提案手法が様々な特徴抽出器や対応推定器に柔軟に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:59:51Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - A Model for Multi-View Residual Covariances based on Perspective
Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。
我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文 参考訳(メタデータ) (2022-02-01T21:21:56Z) - Perceptual Loss for Robust Unsupervised Homography Estimation [1.2891210250935146]
BiHomEは、ソース視点からの歪んだ画像とターゲット視点からの対応する画像との間の特徴空間における距離を最小化する。
我々は、biHomEが合成COCOデータセットの最先端のパフォーマンスを達成することを示しています。
論文 参考訳(メタデータ) (2021-04-20T14:41:54Z) - LM-Reloc: Levenberg-Marquardt Based Direct Visual Relocalization [54.77498358487812]
LM-Relocは、直接画像アライメントに基づく視覚的再ローカライズのための新しいアプローチである。
本稿では,LM-Net を学習するための古典的レバンス・マルカルトアルゴリズムにインスパイアされた損失定式化を提案する。
論文 参考訳(メタデータ) (2020-10-13T12:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。