論文の概要: Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2601.13565v1
- Date: Tue, 20 Jan 2026 03:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.143085
- Title: Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation
- Title(参考訳): 開語彙6次元オブジェクト位置推定のためのクロスパースペクティブ・パーセプションを用いた微粒化対応学習
- Authors: Yu Qin, Shimeng Fan, Fan Yang, Zixuan Xue, Zijie Mai, Wenrui Chen, Kailun Yang, Zhiyong Li,
- Abstract要約: 微粒化対応ポース推定(FiCoP)は、ノイズの発するグローバルマッチングから空間的に制約されたパッチレベル対応へ移行するフレームワークである。
FiCoPは、最先端の手法と比較して平均リコールを8.0%と6.1%改善する。
- 参考スコア(独自算出の注目度): 14.262846967061947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 6D object pose estimation empowers robots to manipulate arbitrary unseen objects guided solely by natural language. However, a critical limitation of existing approaches is their reliance on unconstrained global matching strategies. In open-world scenarios, trying to match anchor features against the entire query image space introduces excessive ambiguity, as target features are easily confused with background distractors. To resolve this, we propose Fine-grained Correspondence Pose Estimation (FiCoP), a framework that transitions from noise-prone global matching to spatially-constrained patch-level correspondence. Our core innovation lies in leveraging a patch-to-patch correlation matrix as a structural prior to narrowing the matching scope, effectively filtering out irrelevant clutter to prevent it from degrading pose estimation. Firstly, we introduce an object-centric disentanglement preprocessing to isolate the semantic target from environmental noise. Secondly, a Cross-Perspective Global Perception (CPGP) module is proposed to fuse dual-view features, establishing structural consensus through explicit context reasoning. Finally, we design a Patch Correlation Predictor (PCP) that generates a precise block-wise association map, acting as a spatial filter to enforce fine-grained, noise-resilient matching. Experiments on the REAL275 and Toyota-Light datasets demonstrate that FiCoP improves Average Recall by 8.0% and 6.1%, respectively, compared to the state-of-the-art method, highlighting its capability to deliver robust and generalized perception for robotic agents operating in complex, unconstrained open-world environments. The source code will be made publicly available at https://github.com/zjjqinyu/FiCoP.
- Abstract(参考訳): オープンボキャブラリ6Dオブジェクトのポーズ推定は、自然言語のみでガイドされる任意の未確認オブジェクトをロボットが操作できるようにする。
しかし、既存のアプローチの限界は、制約のないグローバルマッチング戦略に依存していることである。
オープンワールドのシナリオでは、アンカー機能とクエリイメージ空間全体とを一致させようとすると、ターゲット機能とバックグラウンドイントラクタとを簡単に混同するため、過度な曖昧さが発生する。
そこで本研究では,ノイズの発するグローバルマッチングから空間的に制約されたパッチレベル対応へ移行するフレームワークFiCoPを提案する。
我々の中核的な革新は、マッチング範囲を狭める前に、パッチとパッチの相関行列を構造として活用することであり、無関係なクラッタを効果的にフィルタリングすることで、ポーズ推定の劣化を防ぐことである。
まず,環境騒音からセマンティックターゲットを分離するために,オブジェクト中心の絡み合い前処理を導入する。
次に、二重視点特徴を融合させ、明示的な文脈推論を通じて構造的コンセンサスを確立するために、CPGPモジュールを提案する。
最後に, 空間フィルタとして機能し, きめ細粒度, 耐雑音性マッチングを実現するために, 正確なブロックワイズ対応マップを生成するパッチ相関予測器(PCP)を設計する。
REAL275とToyota-Lightデータセットの実験により、FiCoPは最先端の手法と比較して平均リコールを8.0%と6.1%改善し、複雑で制約のないオープンワールド環境で動作しているロボットエージェントに対して、堅牢で汎用的な認識を提供する能力を強調した。
ソースコードはhttps://github.com/zjjqinyu/FiCoP.comで公開されている。
関連論文リスト
- UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - Robust Context-Aware Object Recognition [15.318646611581741]
RCORは、ローカライゼーションを認識の不可欠な部分として扱い、オブジェクト中心およびコンテキスト認識モデリングを分離する。
その結果、ImageNet-1kのような複雑なシーンでも、認識前のローカライゼーションが可能になった。
論文 参考訳(メタデータ) (2025-10-01T07:45:38Z) - Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval [54.90229711181207]
TIPR (Text-to-Image Person Retrieval) は、与えられたテキストクエリに基づいて、最も関連性の高い人物画像を取得することを目的としている。
TIPRの鍵となる課題は、テキストと視覚のモダリティの効果的なアライメントを達成することである。
FMFA, クロスモーダルフルモーデファインファインファインファインアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T07:12:05Z) - Dynamic Position Transformation and Boundary Refinement Network for Left Atrial Segmentation [17.09918110723713]
左心房細動は不整脈(心房細動)の診断において重要な手法である。
LAセグメンテーションの現在のほとんどの方法は、入力データがオブジェクト指向のセンタートリミングによって取得されると厳密に仮定している。
本稿では,これらの問題に対処するための新しい動的位置変換と境界改善ネットワーク(DPBNet)を提案する。
論文 参考訳(メタデータ) (2024-07-07T22:09:35Z) - CPR++: Object Localization via Single Coarse Point Supervision [55.8671776333499]
粗い点修正(CPR)は、アルゴリズムの観点からの意味的分散を緩和する最初の試みである。
CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。
CPR++は、スケール情報を取得し、グローバル領域における意味的分散をさらに低減することができる。
論文 参考訳(メタデータ) (2024-01-30T17:38:48Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Regularizing Self-training for Unsupervised Domain Adaptation via
Structural Constraints [14.593782939242121]
本稿では,従来の自己学習目標を正規化するために,奥行きなどの補助的モーダルから構造的手がかりを取り入れることを提案する。
具体的には、オブジェクトインスタンスの近い領域内でピクセル表現をプルする、対照的なピクセルレベルのオブジェクト性制約を導入する。
セマンティックセグメンテーションのための様々な UDA ベンチマークにおいて,正則化器は最上位の自己学習手法を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-04-29T00:12:26Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。