Fugu-MT 論文翻訳(概要): UniPR: Unified Object-level Real-to-Sim Perception and Reconstruction from a Single Stereo Pair

論文の概要: UniPR: Unified Object-level Real-to-Sim Perception and Reconstruction from a Single Stereo Pair

arxiv url: http://arxiv.org/abs/2603.19616v1
Date: Fri, 20 Mar 2026 03:47:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:38.983298
Title: UniPR: Unified Object-level Real-to-Sim Perception and Reconstruction from a Single Stereo Pair
Title（参考訳）: UniPR: 単一ステレオペアからの統一オブジェクトレベルリアルタイム知覚と再構成
Authors: Chuanrui Zhang, Yingshuang Zou, ZhengXian Wu, Yonggen Ling, Yuxiao Yang, Ziwei Wang,
Abstract要約: 我々は、最初のエンドツーエンドのオブジェクトレベル認識と再構築フレームワークUniPRを提案する。ステレオ画像のペアを直接操作する本稿では,カテゴリごとの標準定義の必要性を排除するために,Pose-Aware Shape Representationを導入する。我々は6,300以上のオブジェクトからなる大語彙ステレオデータセット LVS6D を構築し,この分野の大規模研究を促進する。
参考スコア（独自算出の注目度）: 12.42575982276596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Perceiving and reconstructing objects from images are critical for real-to-sim transfer tasks, which are widely used in the robotics community. Existing methods rely on multiple submodules such as detection, segmentation, shape reconstruction, and pose estimation to complete the pipeline. However, such modular pipelines suffer from inefficiency and cumulative error, as each stage operates on only partial or locally refined information while discarding global context. To address these limitations, we propose UniPR, the first end-to-end object-level real-to-sim perception and reconstruction framework. Operating directly on a single stereo image pair, UniPR leverages geometric constraints to resolve the scale ambiguity. We introduce Pose-Aware Shape Representation to eliminate the need for per-category canonical definitions and to bridge the gap between reconstruction and pose estimation tasks. Furthermore, we construct a large-vocabulary stereo dataset, LVS6D, comprising over 6,300 objects, to facilitate large-scale research in this area. Extensive experiments demonstrate that UniPR reconstructs all objects in a scene in parallel within a single forward pass, achieving significant efficiency gains and preserves true physical proportions across diverse object types, highlighting its potential for practical robotic applications.
Abstract（参考訳）: 画像からの物体の認識と再構成は、ロボットコミュニティで広く使われている実物間移動作業に不可欠である。既存の方法は、検出、セグメンテーション、形状再構成、ポーズ推定といった複数のサブモジュールに依存している。しかし、これらのモジュールパイプラインは、グローバルコンテキストを捨てながら部分的または局所的な情報のみを扱うため、非効率性と累積誤差に悩まされる。これらの制約に対処するため、最初のエンドツーエンドのオブジェクトレベルのリアルタイム認識と再構築フレームワークであるUniPRを提案する。単一のステレオ画像ペアで直接操作すると、UniPRは幾何学的制約を利用してスケールの曖昧さを解決する。本稿では,カテゴリごとの標準定義の必要性を排除し,再構築とポーズ推定のギャップを埋めるため,Pose-Aware Shape Representationを導入する。さらに,6300以上のオブジェクトからなる大語彙ステレオデータセット LVS6D を構築し,この分野の大規模研究を促進する。大規模な実験では、UniPRはシーン内のすべてのオブジェクトを1つの前方通過内で並列に再構成し、大きな効率向上を実現し、様々なオブジェクトタイプにまたがる真の物理的割合を保ち、実用的なロボット応用の可能性を強調している。

関連論文リスト

UniScale: Unified Scale-Aware 3D Reconstruction for Multi-View Understanding via Prior Injection for Robotic Perception [20.17194041393434]
We present UniScale, a unified, scale-aware multi-view 3D reconstruction framework for robotic applications。 UniScaleは、モジュラーでセマンティックにインシデントされた設計を通じて、幾何学的事前情報を統合している。複数のベンチマークでUniScaleを評価し、様々な環境において強力な一般化と一貫した性能を示す。
論文参考訳（メタデータ） (2026-02-26T17:04:36Z)
Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [114.57192386025373]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文参考訳（メタデータ） (2025-06-05T09:14:42Z)
unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning [6.259786457043613]
教師なしマルチオブジェクトセグメンテーションは、単一画像において難しい問題である。本稿では,現実世界の画像中の多くの複雑な物体を識別する新しい2段階パイプラインであるunMOREを紹介する。本手法は,すべてのベースラインが崩壊する混雑した画像に優れる。
論文参考訳（メタデータ） (2025-06-02T15:22:51Z)
Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image [52.11275397911693]
本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
論文参考訳（メタデータ） (2025-04-04T05:08:04Z)
ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。 3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文参考訳（メタデータ） (2025-02-26T10:25:32Z)
SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。 SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文参考訳（メタデータ） (2024-01-17T11:15:09Z)
Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文参考訳（メタデータ） (2022-02-01T15:00:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。