論文の概要: Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
- arxiv url: http://arxiv.org/abs/2412.18605v1
- Date: Tue, 24 Dec 2024 18:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:48.378562
- Title: Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
- Title(参考訳): オブジェクト指向:3次元モデルのレンダリングからロバストなオブジェクト指向推定を学習する
- Authors: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao,
- Abstract要約: オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
- 参考スコア(独自算出の注目度): 79.96917782423219
- License:
- Abstract: Orientation is a key attribute of objects, crucial for understanding their spatial pose and arrangement in images. However, practical solutions for accurate orientation estimation from a single image remain underexplored. In this work, we introduce Orient Anything, the first expert and foundational model designed to estimate object orientation in a single- and free-view image. Due to the scarcity of labeled data, we propose extracting knowledge from the 3D world. By developing a pipeline to annotate the front face of 3D objects and render images from random views, we collect 2M images with precise orientation annotations. To fully leverage the dataset, we design a robust training objective that models the 3D orientation as probability distributions of three angles and predicts the object orientation by fitting these distributions. Besides, we employ several strategies to improve synthetic-to-real transfer. Our model achieves state-of-the-art orientation estimation accuracy in both rendered and real images and exhibits impressive zero-shot ability in various scenarios. More importantly, our model enhances many applications, such as comprehension and generation of complex spatial concepts and 3D object pose adjustment.
- Abstract(参考訳): オリエンテーションはオブジェクトの重要な属性であり、画像の空間的なポーズや配置を理解するのに不可欠である。
しかし、1つの画像から正確な方向推定を行うための実践的な解決策は未検討のままである。
本稿では,一眼レフ画像と自由視点画像のオブジェクト指向を推定する目的で設計された,最初のエキスパートおよび基礎モデルであるOrient Anythingを紹介する。
ラベル付きデータの不足により,3次元世界から知識を抽出する手法を提案する。
3Dオブジェクトの前面をアノテートし、ランダムなビューから画像をレンダリングするパイプラインを開発することにより、正確な配向アノテーションを持つ2Mイメージを収集する。
データセットを完全に活用するために,3次元の向きを3つの角度の確率分布としてモデル化する頑健な学習目標を設計し,これらの分布を適合させて物体の向きを予測する。
さらに,合成から現実への移動を改善するために,いくつかの戦略を採用している。
本モデルは,レンダリング画像と実画像の両方において最先端の向き推定精度を達成し,様々なシナリオにおいて印象的なゼロショット能力を示す。
さらに,複雑な空間概念の理解や生成,3次元オブジェクトのポーズ調整など,多くの応用が期待できる。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Learning 3D-Aware GANs from Unposed Images with Template Feature Field [33.32761749864555]
この研究は、未提示の画像から3D対応のGANを学習することを目的としている。
学習テンプレート特徴場(TeFF)を用いたトレーニング画像のオンザフライポーズ推定を提案する。
論文 参考訳(メタデータ) (2024-04-08T17:42:08Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning
of 3D Pose [10.028521796737314]
本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。
我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
論文 参考訳(メタデータ) (2021-10-27T06:53:53Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - Novel Object Viewpoint Estimation through Reconstruction Alignment [45.16865218423492]
我々は、新しい対象の視点を推定するために再構成と整合性アプローチを学ぶ。
具体的には、2つのネットワークを学習することを提案する。最初の1つは3次元幾何学的特徴ボトルネックに画像をマッピングし、画像から画像への変換損失を学習する。
テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。
論文 参考訳(メタデータ) (2020-06-05T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。