論文の概要: DKPMV: Dense Keypoints Fusion from Multi-View RGB Frames for 6D Pose Estimation of Textureless Objects
- arxiv url: http://arxiv.org/abs/2510.10933v1
- Date: Mon, 13 Oct 2025 02:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.160721
- Title: DKPMV: Dense Keypoints Fusion from Multi-View RGB Frames for 6D Pose Estimation of Textureless Objects
- Title(参考訳): DKPMV:Dense Keypoints Fusions Fusion from Multi-View RGB Frames for 6D Pose Estimation of Textureless Objects
- Authors: Jiahong Chen, Jinghao Wang, Zi Wang, Ziwen Wang, Banglei Guan, Qifeng Yu,
- Abstract要約: 我々は,高密度キーポイントレベルの融合を実現するパイプラインDKPMVを提案する。
我々は,注目集約と対称性を考慮した学習により,キーポイントネットワークを強化した。
ROBIデータセットの実験により、DKPMVは最先端のマルチビューRGBアプローチより優れていることが示された。
- 参考スコア(独自算出の注目度): 18.011730388391232
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 6D pose estimation of textureless objects is valuable for industrial robotic applications, yet remains challenging due to the frequent loss of depth information. Current multi-view methods either rely on depth data or insufficiently exploit multi-view geometric cues, limiting their performance. In this paper, we propose DKPMV, a pipeline that achieves dense keypoint-level fusion using only multi-view RGB images as input. We design a three-stage progressive pose optimization strategy that leverages dense multi-view keypoint geometry information. To enable effective dense keypoint fusion, we enhance the keypoint network with attentional aggregation and symmetry-aware training, improving prediction accuracy and resolving ambiguities on symmetric objects. Extensive experiments on the ROBI dataset demonstrate that DKPMV outperforms state-of-the-art multi-view RGB approaches and even surpasses the RGB-D methods in the majority of cases. The code will be available soon.
- Abstract(参考訳): テクスチャレス物体の6次元ポーズ推定は, 産業用ロボット用途に有用であるが, 深度情報の欠落が頻発しているため, 依然として困難である。
現在のマルチビュー手法は深度データに依存するか、あるいは多ビュー幾何学的手法を不十分に活用し、性能を制限している。
本稿では,マルチビューRGB画像のみを入力として,高密度キーポイントレベルの融合を実現するパイプラインDKPMVを提案する。
我々は高密度な多視点キーポイント幾何情報を利用する3段階プログレッシブポーズ最適化戦略を設計する。
有効に密接なキーポイント融合を実現するため,注目集約と対称性を考慮したトレーニングによりキーポイントネットワークを強化し,予測精度を改善し,対称オブジェクトの曖昧さを解消する。
ROBIデータセットの大規模な実験により、DKPMVは最先端のマルチビューRGBアプローチより優れており、ほとんどのケースではRGB-Dメソッドよりも優れています。
コードはまもなく利用可能になる。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。
そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。
我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-15T14:30:26Z) - Active 6D Pose Estimation for Textureless Objects using Multi-View RGB Frames [10.859307261818362]
RBG画像からテクスチャレス物体の6次元ポーズを推定することはロボティクスにおいて重要な問題である。
RGB画像のみを用いてテクスチャレス物体の6次元ポーズを推定するための包括的能動的知覚フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:28:32Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - 3D Point-to-Keypoint Voting Network for 6D Pose Estimation [8.801404171357916]
3次元キーポイントの空間構造特性に基づくRGB-Dデータから6次元ポーズ推定のためのフレームワークを提案する。
提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-12-22T11:43:15Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。