Fugu-MT 論文翻訳(概要): Zero-shot Inexact CAD Model Alignment from a Single Image

論文の概要: Zero-shot Inexact CAD Model Alignment from a Single Image

arxiv url: http://arxiv.org/abs/2507.03292v1
Date: Fri, 04 Jul 2025 04:46:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.660268
Title: Zero-shot Inexact CAD Model Alignment from a Single Image
Title（参考訳）: 単一画像からのゼロショット非接触CADモデルアライメント
Authors: Pattaramanee Arsomngern, Sasikarn Khwanmuang, Matthias Nießner, Supasorn Suwajanakorn,
Abstract要約: 1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
参考スコア（独自算出の注目度）: 53.37898107159792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One practical approach to infer 3D scene structure from a single image is to retrieve a closely matching 3D model from a database and align it with the object in the image. Existing methods rely on supervised training with images and pose annotations, which limits them to a narrow set of object categories. To address this, we propose a weakly supervised 9-DoF alignment method for inexact 3D models that requires no pose annotations and generalizes to unseen categories. Our approach derives a novel feature space based on foundation features that ensure multi-view consistency and overcome symmetry ambiguities inherent in foundation features using a self-supervised triplet loss. Additionally, we introduce a texture-invariant pose refinement technique that performs dense alignment in normalized object coordinates, estimated through the enhanced feature space. We conduct extensive evaluations on the real-world ScanNet25k dataset, where our method outperforms SOTA weakly supervised baselines by +4.3% mean alignment accuracy and is the only weakly supervised approach to surpass the supervised ROCA by +2.7%. To assess generalization, we introduce SUN2CAD, a real-world test set with 20 novel object categories, where our method achieves SOTA results without prior training on them.
Abstract（参考訳）: 1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。そこで本研究では,ポーズアノテーションを必要とせず,未知のカテゴリに一般化する不正確な3Dモデルに対して,弱い教師付き9-DoFアライメント手法を提案する。提案手法は,多視点の整合性を確保し,自己教師付き三重項損失を用いた基本特徴に固有の対称性の曖昧さを克服する基礎特徴量に基づく新しい特徴量空間を導出する。さらに,高次特徴空間から推定される正規化対象座標に密集したアライメントを行うテクスチャ不変ポーズ改善手法を提案する。実世界のScanNet25kデータセットにおいて、我々の手法はSOTAの教師付きベースラインを+4.3%平均アライメント精度で上回り、ROCAを+2.7%超える唯一の弱教師付きアプローチである。一般化を評価するために,20種類の新しいオブジェクトカテゴリを持つ実世界のテストセットであるSUN2CADを導入する。

関連論文リスト

SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting [4.121797302827049]
ポーズフリーで3次元の事前自由な一般化可能な3次元再構成を実現するための新しい3次元ガウススプラッティングモデルであるSelfSplatを提案する。本モデルでは,これらの課題に対して,自己教師付き深度とポーズ推定手法を効果的に統合することによって対処する。提案手法の性能を評価するため,RealEstate10K,ACID,DL3DVなどの大規模実世界のデータセットを用いて評価を行った。
論文参考訳（メタデータ） (2024-11-26T08:01:50Z)
Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文参考訳（メタデータ） (2024-06-26T16:01:10Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
OriCon3D: Effective 3D Object Detection using Orientation and Confidence [0.0]
1つの画像から3次元物体を検出するための高度な手法を提案する。我々は、深層畳み込みニューラルネットワークに基づく3Dオブジェクト重み付け指向回帰パラダイムを用いる。提案手法は, 3次元オブジェクトのポーズ決定の精度を大幅に向上し, ベースライン法を超越した。
論文参考訳（メタデータ） (2023-04-27T19:52:47Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)
MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。提案手法は,KITTIベンチマークの最先端手法より優れている。
論文参考訳（メタデータ） (2021-03-23T15:03:08Z)
IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文参考訳（メタデータ） (2021-03-05T05:47:52Z)
Monocular 3D Detection with Geometric Constraints Embedding and Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文参考訳（メタデータ） (2020-09-02T00:51:51Z)
Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文参考訳（メタデータ） (2020-08-31T17:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。