論文の概要: Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2403.14279v1
- Date: Thu, 21 Mar 2024 10:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:48:00.536837
- Title: Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation
- Title(参考訳): Zero123-6D: RGBカテゴリーレベルの6次元空間推定のためのゼロショット新規ビュー合成
- Authors: Francesco Di Felice, Alberto Remus, Stefano Gasperini, Benjamin Busam, Lionel Ott, Federico Tombari, Roland Siegwart, Carlo Alberto Avizzano,
- Abstract要約: 本研究は,RGB 6Dポーズ推定における拡散モデルに基づく新規ビュー合成器の有用性を示す。
実験はCO3Dデータセット上で定量的に分析され、ベースライン上での性能向上を示す。
- 参考スコア(独自算出の注目度): 66.3814684757376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the pose of objects through vision is essential to make robotic platforms interact with the environment. Yet, it presents many challenges, often related to the lack of flexibility and generalizability of state-of-the-art solutions. Diffusion models are a cutting-edge neural architecture transforming 2D and 3D computer vision, outlining remarkable performances in zero-shot novel-view synthesis. Such a use case is particularly intriguing for reconstructing 3D objects. However, localizing objects in unstructured environments is rather unexplored. To this end, this work presents Zero123-6D to demonstrate the utility of Diffusion Model-based novel-view-synthesizers in enhancing RGB 6D pose estimation at category-level by integrating them with feature extraction techniques. The outlined method exploits such a novel view synthesizer to expand a sparse set of RGB-only reference views for the zero-shot 6D pose estimation task. Experiments are quantitatively analyzed on the CO3D dataset, showcasing increased performance over baselines, a substantial reduction in data requirements, and the removal of the necessity of depth information.
- Abstract(参考訳): ロボットプラットフォームが環境と対話するためには、視覚を通して物体のポーズを推定することが不可欠である。
しかし、多くの課題があり、しばしば最先端のソリューションの柔軟性と一般化性の欠如に関連している。
拡散モデルは、2Dおよび3Dコンピュータビジョンを変換する最先端のニューラルネットワークであり、ゼロショットノベルビュー合成における顕著なパフォーマンスを概説している。
このようなユースケースは、特に3Dオブジェクトの再構築に興味深い。
しかし、非構造化環境における物体の局所化は、かなり未解明である。
そこで本研究では,Zero123-6Dを用いて,RGB 6Dのポーズ推定をカテゴリレベルで向上する手法として,拡散モデルに基づく新規ビュー合成装置の有用性を実証する。
アウトライン化手法は、新規なビューシンセサイザーを利用して、ゼロショット6Dポーズ推定タスクのためのRGBのみ参照ビューのスパースセットを拡張する。
実験はCO3Dデータセット上で定量的に分析され、ベースライン上での性能向上、データ要求の大幅な削減、深度情報の必要性の排除が示されている。
関連論文リスト
- Advancing 6D Pose Estimation in Augmented Reality -- Overcoming Projection Ambiguity with Uncontrolled Imagery [0.0]
本研究では,拡張現実(AR)における正確な6次元ポーズ推定の課題に対処する。
本稿では,z軸変換と焦点長の推定を戦略的に分解する手法を提案する。
この手法は6次元ポーズ推定プロセスの合理化だけでなく、AR設定における3次元オブジェクトのオーバーレイの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-20T09:22:22Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering
of Neural Features [17.920305227880245]
1枚のRGB画像からカテゴリレベルの6Dポーズ推定の問題を考察する。
提案手法は,対象カテゴリを立方体メッシュとして表現し,各メッシュにおける神経機能アクティベーションの生成モデルを学習する。
実験では,先行作業と比較して,カテゴリレベルの6次元ポーズ推定性能が向上した。
論文 参考訳(メタデータ) (2022-09-12T21:31:36Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image
Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文 参考訳(メタデータ) (2020-07-27T21:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。