Fugu-MT 論文翻訳(概要): Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation

論文の概要: Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation

arxiv url: http://arxiv.org/abs/2403.14279v1
Date: Thu, 21 Mar 2024 10:38:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 14:48:00.536837
Title: Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation
Title（参考訳）: Zero123-6D: RGBカテゴリーレベルの6次元空間推定のためのゼロショット新規ビュー合成
Authors: Francesco Di Felice, Alberto Remus, Stefano Gasperini, Benjamin Busam, Lionel Ott, Federico Tombari, Roland Siegwart, Carlo Alberto Avizzano,
Abstract要約: 本研究は,RGB 6Dポーズ推定における拡散モデルに基づく新規ビュー合成器の有用性を示す。実験はCO3Dデータセット上で定量的に分析され、ベースライン上での性能向上を示す。
参考スコア（独自算出の注目度）: 66.3814684757376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating the pose of objects through vision is essential to make robotic platforms interact with the environment. Yet, it presents many challenges, often related to the lack of flexibility and generalizability of state-of-the-art solutions. Diffusion models are a cutting-edge neural architecture transforming 2D and 3D computer vision, outlining remarkable performances in zero-shot novel-view synthesis. Such a use case is particularly intriguing for reconstructing 3D objects. However, localizing objects in unstructured environments is rather unexplored. To this end, this work presents Zero123-6D to demonstrate the utility of Diffusion Model-based novel-view-synthesizers in enhancing RGB 6D pose estimation at category-level by integrating them with feature extraction techniques. The outlined method exploits such a novel view synthesizer to expand a sparse set of RGB-only reference views for the zero-shot 6D pose estimation task. Experiments are quantitatively analyzed on the CO3D dataset, showcasing increased performance over baselines, a substantial reduction in data requirements, and the removal of the necessity of depth information.
Abstract（参考訳）: ロボットプラットフォームが環境と対話するためには、視覚を通して物体のポーズを推定することが不可欠である。しかし、多くの課題があり、しばしば最先端のソリューションの柔軟性と一般化性の欠如に関連している。拡散モデルは、2Dおよび3Dコンピュータビジョンを変換する最先端のニューラルネットワークであり、ゼロショットノベルビュー合成における顕著なパフォーマンスを概説している。このようなユースケースは、特に3Dオブジェクトの再構築に興味深い。しかし、非構造化環境における物体の局所化は、かなり未解明である。そこで本研究では,Zero123-6Dを用いて,RGB 6Dのポーズ推定をカテゴリレベルで向上する手法として,拡散モデルに基づく新規ビュー合成装置の有用性を実証する。アウトライン化手法は、新規なビューシンセサイザーを利用して、ゼロショット6Dポーズ推定タスクのためのRGBのみ参照ビューのスパースセットを拡張する。実験はCO3Dデータセット上で定量的に分析され、ベースライン上での性能向上、データ要求の大幅な削減、深度情報の必要性の排除が示されている。

関連論文リスト

Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey [154.50661618628433]
3D再構成とビュー合成は、拡張現実(AR)、仮想現実(VR)、デジタルツインといった没入型技術における基礎的な問題である。深層学習によるフィードフォワードアプローチの最近の進歩は、高速で一般化可能な3次元再構成とビュー合成を可能にして、この分野に革命をもたらした。
論文参考訳（メタデータ） (2025-07-19T06:13:25Z)
Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文参考訳（メタデータ） (2024-05-31T17:54:52Z)
Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild [22.82439286651921]
本研究では,3次元形状復元に特化して設計された分割と再構成を統合した統合回帰モデルを提案する。また、オブジェクト、オクローダ、バックグラウンドの幅広いバリエーションをシミュレートするスケーラブルなデータ合成パイプラインも導入しています。我々の合成データのトレーニングにより,提案モデルは実世界の画像に対して最先端のゼロショット結果が得られる。
論文参考訳（メタデータ） (2024-03-21T16:40:10Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文参考訳（メタデータ） (2023-05-25T14:56:03Z)
Uncertainty Guided Policy for Active Robotic 3D Reconstruction using Neural Radiance Fields [82.21033337949757]
本稿では,物体の暗黙のニューラル表現の各光線に沿ったカラーサンプルの重量分布のエントロピーを計算した線量不確実性推定器を提案する。提案した推定器を用いた新しい視点から, 基礎となる3次元形状の不確かさを推測することが可能であることを示す。ニューラルラディアンス場に基づく表現における線量不確実性によって導かれる次ベクター選択ポリシーを提案する。
論文参考訳（メタデータ） (2022-09-17T21:28:57Z)
Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering of Neural Features [17.920305227880245]
1枚のRGB画像からカテゴリレベルの6Dポーズ推定の問題を考察する。提案手法は,対象カテゴリを立方体メッシュとして表現し,各メッシュにおける神経機能アクティベーションの生成モデルを学習する。実験では,先行作業と比較して,カテゴリレベルの6次元ポーズ推定性能が向上した。
論文参考訳（メタデータ） (2022-09-12T21:31:36Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文参考訳（メタデータ） (2021-03-30T17:57:01Z)
Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文参考訳（メタデータ） (2021-01-18T03:24:48Z)
se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文参考訳（メタデータ） (2020-07-27T21:09:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。