論文の概要: An Efficient Deep Template Matching and In-Plane Pose Estimation Method via Template-Aware Dynamic Convolution
- arxiv url: http://arxiv.org/abs/2510.01678v1
- Date: Thu, 02 Oct 2025 05:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.004732
- Title: An Efficient Deep Template Matching and In-Plane Pose Estimation Method via Template-Aware Dynamic Convolution
- Title(参考訳): テンプレート対応動的畳み込みによる効率的な深層テンプレートマッチングとインプレーンポーズ推定法
- Authors: Ke Jia, Ji Zhou, Hanxin Li, Zhigan Zhou, Haojie Chu, Xiaojie Li,
- Abstract要約: 産業検査やコンポーネントアライメントタスクでは、テンプレートマッチングはターゲットの位置と幾何学的状態の効率的な推定を必要とする。
本稿では,テンプレートマッチングを結合局所化と幾何回帰として再構成する軽量なエンドツーエンドフレームワークを提案する。
実験により, 複合変換下での高精度および14msの推論が得られた。
- 参考スコア(独自算出の注目度): 5.201850165450502
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In industrial inspection and component alignment tasks, template matching requires efficient estimation of a target's position and geometric state (rotation and scaling) under complex backgrounds to support precise downstream operations. Traditional methods rely on exhaustive enumeration of angles and scales, leading to low efficiency under compound transformations. Meanwhile, most deep learning-based approaches only estimate similarity scores without explicitly modeling geometric pose, making them inadequate for real-world deployment. To overcome these limitations, we propose a lightweight end-to-end framework that reformulates template matching as joint localization and geometric regression, outputting the center coordinates, rotation angle, and independent horizontal and vertical scales. A Template-Aware Dynamic Convolution Module (TDCM) dynamically injects template features at inference to guide generalizable matching. The compact network integrates depthwise separable convolutions and pixel shuffle for efficient matching. To enable geometric-annotation-free training, we introduce a rotation-shear-based augmentation strategy with structure-aware pseudo labels. A lightweight refinement module further improves angle and scale precision via local optimization. Experiments show our 3.07M model achieves high precision and 14ms inference under compound transformations. It also demonstrates strong robustness in small-template and multi-object scenarios, making it highly suitable for deployment in real-time industrial applications. The code is available at:https://github.com/ZhouJ6610/PoseMatch-TDCM.
- Abstract(参考訳): 産業検査やコンポーネントアライメントタスクにおいて、テンプレートマッチングは、複雑な背景の下でターゲットの位置と幾何状態(回転とスケーリング)を効率的に推定し、正確な下流操作をサポートする必要がある。
伝統的な手法は、角度とスケールの徹底的な列挙に依存しており、複合変換の下では効率が低くなる。
一方、多くのディープラーニングベースのアプローチでは、幾何学的なポーズを明示的にモデル化することなく、類似度スコアを見積もることしかできず、現実のデプロイメントには不適当である。
これらの制約を克服するために,テンプレートマッチングを結合局所化と幾何回帰として再構成し,中心座標,回転角,独立水平および垂直スケールを出力する,軽量なエンドツーエンドフレームワークを提案する。
テンプレート対応動的畳み込みモジュール(TDCM)は、推論時にテンプレート機能を動的に注入して、一般化可能なマッチングをガイドする。
コンパクトネットワークは、奥行き分離可能な畳み込みと画素シャッフルを統合して、効率的なマッチングを行う。
幾何アノテーションのないトレーニングを可能にするために,構造認識型擬似ラベルを用いた回転平滑化戦略を導入する。
軽量な改良モジュールは、局所最適化による角度とスケール精度をさらに向上させる。
実験により, 複合変換下での高精度および14msの推論が得られた。
また、小規模かつ多目的のシナリオで強い堅牢性を示し、リアルタイム産業アプリケーションへのデプロイに非常に適している。
コードはhttps://github.com/ZhouJ6610/PoseMatch-TDCMで公開されている。
関連論文リスト
- Non-Rigid Structure-from-Motion via Differential Geometry with Recoverable Conformal Scale [17.935227965480475]
共形変形下でのNRSfMに対するCon-NRSfMという新しい手法を提案する。
提案手法は,グラフベースのフレームワークにより最適化された2次元画像ワープを用いて,ポイントワイズ再構成を行う。
我々のフレームワークは、他のアプローチでは分離できない深さと等角スケールの制約を分離する。
論文 参考訳(メタデータ) (2025-10-02T04:46:46Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。
実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。
我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文 参考訳(メタデータ) (2024-02-03T22:51:17Z) - SIGMA: Scale-Invariant Global Sparse Shape Matching [50.385414715675076]
非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。
いくつかの挑戦的な3Dデータセットに対して,スパースな非剛性マッチングの最先端結果を示す。
論文 参考訳(メタデータ) (2023-08-16T14:25:30Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Neural Subdivision [58.97214948753937]
本稿では,データ駆動型粗粒度モデリングの新しいフレームワークであるNeural Subdivisionを紹介する。
すべてのローカルメッシュパッチで同じネットワーク重みのセットを最適化するため、特定の入力メッシュや固定属、カテゴリに制約されないアーキテクチャを提供します。
単一の高分解能メッシュでトレーニングしても,本手法は新規な形状に対して合理的な区分を生成する。
論文 参考訳(メタデータ) (2020-05-04T20:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。