論文の概要: G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
- arxiv url: http://arxiv.org/abs/2508.11379v1
- Date: Fri, 15 Aug 2025 10:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.853088
- Title: G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
- Title(参考訳): G-CUT3R:カメラと奥行きを事前統合したガイド付き3D再構成
- Authors: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev,
- Abstract要約: G-CUT3Rは,ガイド付き3次元シーン再構成のための新しいフィードフォワード手法である。
入力画像のみに依存する既存のフィードフォワード法とは異なり,本手法では奥行き,カメラキャリブレーション,カメラ位置などの補助的データを活用する。
- 参考スコア(独自算出の注目度): 50.47403857376764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene reconstruction that enhances the CUT3R model by integrating prior information. Unlike existing feed-forward methods that rely solely on input images, our method leverages auxiliary data, such as depth, camera calibrations, or camera positions, commonly available in real-world scenarios. We propose a lightweight modification to CUT3R, incorporating a dedicated encoder for each modality to extract features, which are fused with RGB image tokens via zero convolution. This flexible design enables seamless integration of any combination of prior information during inference. Evaluated across multiple benchmarks, including 3D reconstruction and other multi-view tasks, our approach demonstrates significant performance improvements, showing its ability to effectively utilize available priors while maintaining compatibility with varying input modalities.
- Abstract(参考訳): G-CUT3Rは,事前情報を統合することでCUT3Rモデルを強化するガイド付き3次元シーン再構成のための新しいフィードフォワードアプローチである。
入力画像にのみ依存する既存のフィードフォワード法とは異なり、本手法では、現実世界のシナリオで一般的に利用できる深度、カメラキャリブレーション、カメラ位置などの補助データを活用する。
我々はCUT3Rの軽量な修正を提案し、各モードに専用エンコーダを組み込んで特徴を抽出し、ゼロ畳み込みによるRGB画像トークンと融合する。
このフレキシブルな設計は、推論中に事前情報の組み合わせをシームレスに統合することを可能にする。
提案手法は,3次元再構成や他のマルチビュータスクを含む複数のベンチマークで評価され,様々な入力モダリティとの互換性を維持しつつ,利用可能な事前処理を効果的に活用できることを示す。
関連論文リスト
- RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors [18.149244316089284]
我々はPow3rを提案する。Pow3rは大きな3次元視覚の回帰モデルであり、入力モードにおいて非常に多用途である。
本研究では,3次元再構成,深度補完,多視点深度予測,多視点ステレオ,多視点ポーズ推定タスクについて検討した。
論文 参考訳(メタデータ) (2025-03-21T17:12:30Z) - Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning [28.80962812015936]
模倣学習は、ロボットに複雑な多様な操作タスクを実行するよう訓練することができるが、学習されたポリシーはトレーニング分布外の観察で不安定である。
本稿では,キャリブレーションされたRGBDカメラのデータを任意のILアルゴリズムの条件付けとして使用できるベクトルに合成する汎用3D観測エンコーダAdapt3Rを提案する。
93のシミュレーションと6つの実際のタスクを、さまざまなILアルゴリズムでエンドツーエンドにトレーニングすると、Adapt3Rはこれらのアルゴリズムの学習能力を維持しながら、新しいエボディメントやカメラのポーズへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2025-03-06T18:17:09Z) - PreF3R: Pose-Free Feed-Forward 3D Gaussian Splatting from Variable-length Image Sequence [3.61512056914095]
可変長の画像列から,PreF3R, Pose-Free Feed-forward 3D再構成を提案する。
PreF3Rは、カメラキャリブレーションの必要性を排除し、正準座標フレーム内の3次元ガウス場を、未提示画像のシーケンスから直接再構成する。
論文 参考訳(メタデータ) (2024-11-25T19:16:29Z) - vFusedSeg3D: 3rd Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation [0.0]
VFusedSeg3Dは、カメラ画像のリッチなセマンティックコンテンツと、LiDARの正確な深度センシングを使用して、強力で包括的な環境理解を生成する。
我々の新しい特徴融合技術は、LiDAR点雲の幾何学的特徴とカメラ画像の意味的特徴を組み合わせたものである。
マルチモダリティ技術を用いることで、性能が大幅に向上し、検証セットで72.46%の最先端のmIoUが得られる。
論文 参考訳(メタデータ) (2024-08-09T11:34:19Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [60.48134767838629]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - Towards Scalable Multi-View Reconstruction of Geometry and Materials [27.660389147094715]
本稿では,3次元シーンのカメラポーズ,オブジェクト形状,空間変化の両方向反射分布関数(svBRDF)のジョイントリカバリ手法を提案する。
入力は高解像度のRGBD画像であり、アクティブ照明用の点灯付き携帯型ハンドヘルドキャプチャシステムによってキャプチャされる。
論文 参考訳(メタデータ) (2023-06-06T15:07:39Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。