論文の概要: Rig3R: Rig-Aware Conditioning for Learned 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2506.02265v1
- Date: Mon, 02 Jun 2025 21:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.086741
- Title: Rig3R: Rig-Aware Conditioning for Learned 3D Reconstruction
- Title(参考訳): Rig3R:学習した3D再構成のためのRig対応コンディショニング
- Authors: Samuel Li, Pujith Kachana, Prajwal Chidananda, Saurabh Nair, Yasutaka Furukawa, Matthew Brown,
- Abstract要約: マルチカメラリグからのエージェントポーズと3Dシーン構造の推定は、自律運転などのAIアプリケーションにおいて中心的なタスクである。
リグ構造を組み込んだ事前マルチビュー再構成モデルの一般化であるRig3Rを導入する。
- 参考スコア(独自算出の注目度): 14.300915478064077
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating agent pose and 3D scene structure from multi-camera rigs is a central task in embodied AI applications such as autonomous driving. Recent learned approaches such as DUSt3R have shown impressive performance in multiview settings. However, these models treat images as unstructured collections, limiting effectiveness in scenarios where frames are captured from synchronized rigs with known or inferable structure. To this end, we introduce Rig3R, a generalization of prior multiview reconstruction models that incorporates rig structure when available, and learns to infer it when not. Rig3R conditions on optional rig metadata including camera ID, time, and rig poses to develop a rig-aware latent space that remains robust to missing information. It jointly predicts pointmaps and two types of raymaps: a pose raymap relative to a global frame, and a rig raymap relative to a rig-centric frame consistent across time. Rig raymaps allow the model to infer rig structure directly from input images when metadata is missing. Rig3R achieves state-of-the-art performance in 3D reconstruction, camera pose estimation, and rig discovery, outperforming both traditional and learned methods by 17-45% mAA across diverse real-world rig datasets, all in a single forward pass without post-processing or iterative refinement.
- Abstract(参考訳): マルチカメラリグからのエージェントポーズと3Dシーン構造の推定は、自律運転などのAIアプリケーションにおいて中心的なタスクである。
DUSt3Rのような最近の学習アプローチは、マルチビュー設定で顕著なパフォーマンスを示している。
しかし、これらのモデルはイメージを非構造化コレクションとして扱い、既知のまたは推論可能な構造を持つ同期リグからフレームをキャプチャするシナリオにおける有効性を制限している。
この目的のために,利用可能なリグ構造を組み込んだ事前マルチビュー再構成モデルの一般化であるRig3Rを導入し,その適用しない場合の推論を学習する。
Rig3Rは、カメラID、時間、およびリグを含むオプションのリグメタデータを条件として、欠落した情報に対して堅牢なリグ対応潜在空間を開発する。
グローバルフレームに対するポーズレイマップと、時間的に一貫したリグ中心フレームに対するリグレイマップの2種類のポイントマップと2種類のレイマップを共同で予測する。
リグレイマップは、メタデータが欠けているときに、入力画像から直接リグ構造を推測することを可能にする。
Rig3Rは3D再構成、カメラポーズ推定、リグ発見における最先端のパフォーマンスを達成し、従来の手法と学習方法の両方を17~45%のmAAで、さまざまな現実世界のrigデータセットで上回り、いずれも後処理や反復的な改善なしに1回のフォワードパスで実現している。
関連論文リスト
- MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。
計算複雑性を低減できる多層メモリ機構でモデルを拡張します。
このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文 参考訳(メタデータ) (2025-03-03T15:36:07Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。
我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。
MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文 参考訳(メタデータ) (2024-04-10T03:11:10Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。