論文の概要: VLM6D: VLM based 6Dof Pose Estimation based on RGB-D Images
- arxiv url: http://arxiv.org/abs/2511.00120v1
- Date: Fri, 31 Oct 2025 05:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.623095
- Title: VLM6D: VLM based 6Dof Pose Estimation based on RGB-D Images
- Title(参考訳): VLM6D:RGB-D画像に基づくVLMに基づく6次元ポース推定
- Authors: Md Selim Sarowar, Sungho Kim,
- Abstract要約: VLM6Dは、RGB-D入力からの視覚的および幾何学的データの強度を利用して、ロバストで正確なポーズ推定を行う新しいデュアルストリームアーキテクチャである。
我々は, VLM6D が Occluded-LineMOD に挑戦する上で, 新たな SOTA 性能を得るための総合実験を行った。
- 参考スコア(独自算出の注目度): 7.044221981512693
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The primary challenge in computer vision is precisely calculating the pose of 6D objects, however many current approaches are still fragile and have trouble generalizing from synthetic data to real-world situations with fluctuating lighting, textureless objects, and significant occlusions. To address these limitations, VLM6D, a novel dual-stream architecture that leverages the distinct strengths of visual and geometric data from RGB-D input for robust and precise pose estimation. Our framework uniquely integrates two specialized encoders: a powerful, self-supervised Vision Transformer (DINOv2) processes the RGB modality, harnessing its rich, pre-trained understanding of visual grammar to achieve remarkable resilience against texture and lighting variations. Concurrently, a PointNet++ encoder processes the 3D point cloud derived from depth data, enabling robust geometric reasoning that excels even with the sparse, fragmented data typical of severe occlusion. These complementary feature streams are effectively fused to inform a multi task prediction head. We demonstrate through comprehensive experiments that VLM6D obtained new SOTA performance on the challenging Occluded-LineMOD, validating its superior robustness and accuracy.
- Abstract(参考訳): コンピュータビジョンの最大の課題は、6Dオブジェクトのポーズを正確に計算することだが、現在の多くのアプローチはまだ脆弱であり、合成データから現実の状況への一般化に苦慮している。
これらの制限に対処するため、VLM6Dは、RGB-D入力からの視覚的および幾何学的データの異なる強度を利用して、堅牢で正確なポーズ推定を行う新しいデュアルストリームアーキテクチャである。
我々のフレームワークは、2つの特殊なエンコーダを統合している: 強力な自己監督型ビジョントランスフォーマー(DINOv2)はRGBのモダリティを処理し、そのリッチでトレーニング済みの視覚文法の理解を活用して、テクスチャや照明のバリエーションに対する優れたレジリエンスを実現する。
同時に、PointNet++エンコーダは、深度データから派生した3Dポイントクラウドを処理する。
これらの相補的特徴ストリームを効果的に融合し、マルチタスク予測ヘッドを通知する。
我々は、VLM6Dが難解なOccluded-LineMOD上でのSOTA性能を実証し、その優れた堅牢性と精度を検証した。
関連論文リスト
- Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - SplatPose: Geometry-Aware 6-DoF Pose Estimation from Single RGB Image via 3D Gaussian Splatting [3.6688867031495223]
SplatPoseは3次元ガウススティング(3DGS)を2分岐ニューラルアーキテクチャで合成し,高精度なポーズ推定を実現する新しいフレームワークである。
3つのベンチマークデータセットの実験では、SplatPoseが最先端の6-DoFを1つのRGB設定で推定精度で達成していることが示されている。
論文 参考訳(メタデータ) (2025-03-07T06:40:06Z) - Active 6D Pose Estimation for Textureless Objects using Multi-View RGB Frames [10.859307261818362]
RBG画像からテクスチャレス物体の6次元ポーズを推定することはロボティクスにおいて重要な問題である。
RGB画像のみを用いてテクスチャレス物体の6次元ポーズを推定するための包括的能動的知覚フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:28:32Z) - 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation [50.15926681475939]
逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-02-07T20:48:35Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。