論文の概要: Every9D-21M: Large-Scale Real-World 9D Canonicalization of Everyday Objects
- arxiv url: http://arxiv.org/abs/2605.28270v1
- Date: Wed, 27 May 2026 10:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.962952
- Title: Every9D-21M: Large-Scale Real-World 9D Canonicalization of Everyday Objects
- Title(参考訳): Every9D-21M: 日々の物体の大規模実世界9D標準化
- Authors: Leonhard Sommer, Emil Akopyan, Adam Kortylewski,
- Abstract要約: Every9D-21Mは、700の日常的なオブジェクトカテゴリにまたがる109Kのオブジェクト中心のビデオから、21.8Mの現実世界の画像の9Dポーズアノテーションのデータセットである。
オブジェクトレベルの点雲を多視点幾何で再構成し、類似のインスタンスを共有標準座標フレームに整列させることにより、オブジェクト中心のビデオを活用する。
Every9D-21M のトレーニングは ImageNet3D と PASCAL3D+ のパフォーマンスを向上し,HANDAL への一般化は ImageNet3D のトレーニングよりもかなり優れていることを示す。
- 参考スコア(独自算出の注目度): 25.204624226001442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the 9D pose of everyday objects from a single real-world image remains challenging. This is largely due to the lack of large-scale supervision. Most existing datasets either rely heavily on synthetic renderings or provide limited coverage of real-world objects: the largest real-world 9D pose dataset to date contains only 17K annotated objects across 9 categories. We address this gap with Every9D-21M, a dataset of 9D pose annotations for 21.8M real-world images from 109K object- centric videos spanning 700 everyday object categories - two orders of magnitude larger than prior real-world 9D pose benchmarks in both image and category count. To achieve this scale, we leverage object-centric videos by reconstructing object- level point clouds via multi-view geometry and aligning similar instances into a shared canonical coordinate frame. Canonical poses are manually annotated for only a small set of reference objects (fewer than 0.01% of all images) and propagated to the remaining instances via cross-instance alignment. All propagated canonical poses are then verified from multiple viewpoints. We further introduce cross-category orientation rules that induce category-level symmetries, enabling symmetry-aware evaluation. Beyond establishing dedicated training and evaluation splits as a benchmark for 9D pose foundation models, we show that training on Every9D-21M improves performance on ImageNet3D and PASCAL3D+, and generalizes to HANDAL substantially better than training on ImageNet3D. Data and code are available at https://github.com/GenIntel/Every9D.
- Abstract(参考訳): 現実世界の1枚の画像から、毎日の物体の9Dポーズを推定するのは難しい。
これは主に大規模な監督の欠如によるものである。
既存のほとんどのデータセットは、合成レンダリングに大きく依存するか、現実世界のオブジェクトの限られたカバレッジを提供する。
このギャップに対処するため、Every9D-21Mは、700の日常オブジェクトカテゴリにまたがる109Kのオブジェクト中心ビデオから、21.8Mの現実世界イメージの9Dポーズアノテーションのデータセットである。
このスケールを実現するために、オブジェクトレベルの点雲を多視点幾何で再構成し、類似したインスタンスを共有標準座標フレームに整列させることにより、オブジェクト中心のビデオを活用する。
標準的なポーズは、小さな参照オブジェクト(全画像の0.01%以下)に対して手動で注釈付けされ、クロスインスタンスアライメントによって残りのインスタンスに伝搬される。
すべてのプロパゲートな正標準のポーズは、複数の視点から検証される。
さらに、カテゴリレベルの対称性を誘導し、対称性を考慮した評価を可能にするクロスカテゴリ配向ルールを導入する。
9Dポーズ基礎モデルのベンチマークとして専用のトレーニングと評価分割を確立するだけでなく、Every9D-21MのトレーニングはImageNet3DとPASCAL3D+のパフォーマンスを改善し、ImageNet3DのトレーニングよりもかなりHANDALに一般化することを示した。
データとコードはhttps://github.com/GenIntel/Every9D.comで入手できる。
関連論文リスト
- Beyond 'Templates': Category-Agnostic Object Pose, Size, and Shape Estimation from a Single View [69.6117755984012]
物体の6Dポーズ、サイズ、形状を視覚入力から推定することは、コンピュータビジョンの基本的な問題である。
一つのRGB-D画像から6次元のポーズ,サイズ,密な形状を同時に予測する統合されたカテゴリ非依存フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T17:49:15Z) - One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation [32.45730375971019]
単一の参照画像から、任意の見えない物体の6Dポーズを推定することは、現実世界のインスタンスの長い尾で動くロボティクスにとって重要である。
2つの重要なコンポーネントを通じてこれらの課題に取り組むパイプラインであるOnePoseViaGenを提案する。
実世界操作における本手法の有効性を検証し, 実物操作による頑健な器用握力の実証を行った。
論文 参考訳(メタデータ) (2025-09-09T17:59:02Z) - One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models [5.754251195342313]
私たちは、特定のデータでトレーニングすることなく、同じタスクに取り組む方法を示します。
我々は、事前学習された幾何学的および視覚的基礎モデルの能力を利用する新しいソリューションFreeZeを提案する。
FreeZeは、合成6Dポーズ推定データで広く訓練されたライバルを含む、最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-01T22:00:14Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in
Time [22.574069344246052]
本研究では,3次元手とオブジェクトのポーズを半教師付き学習で推定する統合フレームワークを提案する。
我々は,手とオブジェクトの表現を変換器で明示的な文脈的推論を行う,共同学習フレームワークを構築した。
提案手法は,実世界の挑戦的データセットにおける手振り推定を改良するだけでなく,1インスタンスあたりの接地構造がより少ないオブジェクトポーズも大幅に改善する。
論文 参考訳(メタデータ) (2021-06-09T17:59:34Z) - Single Shot 6D Object Pose Estimation [11.37625512264302]
深度画像に基づく剛体物体の6次元オブジェクトポーズ推定のための新しい単一ショット手法を提案する。
完全な畳み込みニューラルネットワークを用い、3次元入力データを空間的に離散化し、ポーズ推定を回帰タスクとみなす。
GPU上の65fpsでは、Object Pose Network(OP-Net)は非常に高速で、エンドツーエンドに最適化され、画像内の複数のオブジェクトの6Dポーズを同時に推定する。
論文 参考訳(メタデータ) (2020-04-27T11:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。