論文の概要: Vision6D: 3D-to-2D Interactive Visualization and Annotation Tool for 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2504.15329v1
- Date: Mon, 21 Apr 2025 16:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 02:04:59.823285
- Title: Vision6D: 3D-to-2D Interactive Visualization and Annotation Tool for 6D Pose Estimation
- Title(参考訳): Vision6D:3次元から2次元のインタラクティブな可視化とアノテーションツール
- Authors: Yike Zhang, Eduardo Davalos, Jack Noble,
- Abstract要約: 本稿では,6次元ポーズ推定研究コミュニティを支援するインタラクティブな3次元から2次元の可視化・アノテーションツールを提案する。
Vision6Dは、直感的な3Dユーザインタフェースで視覚的手がかりによって正確なポーズアノテーションを生成する。
- 参考スコア(独自算出の注目度): 4.250558597144547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 6D pose estimation has gained more attention over the years for robotics-assisted tasks that require precise interaction with physical objects. This paper presents an interactive 3D-to-2D visualization and annotation tool to support the 6D pose estimation research community. To the best of our knowledge, the proposed work is the first tool that allows users to visualize and manipulate 3D objects interactively on a 2D real-world scene, along with a comprehensive user study. This system supports robust 6D camera pose annotation by providing both visual cues and spatial relationships to determine object position and orientation in various environments. The annotation feature in Vision6D is particularly helpful in scenarios where the transformation matrix between the camera and world objects is unknown, as it enables accurate annotation of these objects' poses using only the camera intrinsic matrix. This capability serves as a foundational step in developing and training advanced pose estimation models across various domains. We evaluate Vision6D's effectiveness by utilizing widely-used open-source pose estimation datasets Linemod and HANDAL through comparisons between the default ground-truth camera poses with manual annotations. A user study was performed to show that Vision6D generates accurate pose annotations via visual cues in an intuitive 3D user interface. This approach aims to bridge the gap between 2D scene projections and 3D scenes, offering an effective way for researchers and developers to solve 6D pose annotation related problems. The software is open-source and publicly available at https://github.com/InteractiveGL/vision6D.
- Abstract(参考訳): 正確な6Dポーズ推定は、物理的物体との正確な相互作用を必要とするロボティクス支援タスクにおいて、長年にわたって注目を集めてきた。
本稿では,6次元ポーズ推定研究コミュニティを支援するインタラクティブな3次元から2次元の可視化・アノテーションツールを提案する。
我々の知る限りでは、提案された研究は、ユーザーが2Dの現実世界のシーンでインタラクティブに3Dオブジェクトを視覚化し、操作できる最初のツールである。
本システムは、様々な環境における物体の位置と方向を決定するために、視覚的手がかりと空間的関係の両方を提供することにより、ロバストな6Dカメラポーズアノテーションをサポートする。
Vision6Dのアノテーション機能は、カメラ固有のマトリックスのみを使用して、これらのオブジェクトのポーズの正確なアノテーションを可能にするため、カメラと世界オブジェクトの間の変換行列が未知のシナリオで特に有用である。
この機能は、様々な領域にわたる高度なポーズ推定モデルの開発とトレーニングの基本的なステップとして機能する。
手動アノテーションによるデフォルトの接地トラスカメラのポーズの比較により、広範に使用されているオープンソースポーズ推定データセットであるLinemodとHANDALを用いて、Vision6Dの有効性を評価する。
Vision6Dは直感的な3Dユーザインタフェースで視覚的手がかりによって正確なポーズアノテーションを生成することを示すために,ユーザスタディが実施された。
このアプローチは,2次元シーンプロジェクションと3次元シーンのギャップを埋めることを目的としている。
このソフトウェアはオープンソースで、https://github.com/InteractiveGL/vision6Dで公開されている。
関連論文リスト
- Any6D: Model-free 6D Pose Estimation of Novel Objects [76.30057578269668]
我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。
新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。
提案手法を5つの挑戦的データセットで評価する。
論文 参考訳(メタデータ) (2025-03-24T13:46:21Z) - 6D Object Pose Tracking in Internet Videos for Robotic Manipulation [20.22297850525832]
本研究では,入力画像中の物体の6次元ポーズを,物体自体の事前の知識を使わずに推定する手法を開発した。
インターネットビデオからスムーズな6次元物体軌跡を抽出し,検出された物体をビデオフレーム間で注意深く追跡する。
既存のRGB 6Dのポーズ推定手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-03-13T12:33:34Z) - Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Weakly-supervised Pre-training for 3D Human Pose Estimation via
Perspective Knowledge [36.65402869749077]
本研究では,3次元ポーズを監督せずに2次元画像から直接弱い3次元情報を抽出する手法を提案する。
画像中の2点間の深度関係を識別するために,弱教師付き事前学習(WSP)戦略を提案する。
WSPは2つの広く使用されているベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-22T03:35:15Z) - Imitrob: Imitation Learning Dataset for Training and Evaluating 6D
Object Pose Estimators [20.611000416051546]
本稿では,標準RGBカメラで捉えたタスクデモにおける手持ちツールの6次元ポーズ推定のためのトレーニングと評価のためのデータセットを提案する。
このデータセットには、9つの異なるツールと12の操作タスクのイメージシーケンスが含まれており、2つのカメラ視点、4人の被写体、そして左右手である。
論文 参考訳(メタデータ) (2022-09-16T14:43:46Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations [29.61554189447989]
本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
論文 参考訳(メタデータ) (2020-10-30T13:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。