論文の概要: 2D Representation for Unguided Single-View 3D Super-Resolution in Real-Time
- arxiv url: http://arxiv.org/abs/2511.08224v1
- Date: Wed, 12 Nov 2025 01:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.703205
- Title: 2D Representation for Unguided Single-View 3D Super-Resolution in Real-Time
- Title(参考訳): 非誘導単一視点3次元超解像のリアルタイム2次元表現
- Authors: Ignasi Mas, Ivan Huerta, Ramon Morros, Javier Ruiz-Hidalgo,
- Abstract要約: 2Dto3D-SRは、リアルタイムのシングルビュー3D超解像のための汎用的なフレームワークである。
我々はPNCC(Projected Normalized Coordinate Code)を用いて、視界から3次元形状を正規画像として表現する。
- 参考スコア(独自算出の注目度): 2.0299248281970956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce 2Dto3D-SR, a versatile framework for real-time single-view 3D super-resolution that eliminates the need for high-resolution RGB guidance. Our framework encodes 3D data from a single viewpoint into a structured 2D representation, enabling the direct application of existing 2D image super-resolution architectures. We utilize the Projected Normalized Coordinate Code (PNCC) to represent 3D geometry from a visible surface as a regular image, thereby circumventing the complexities of 3D point-based or RGB-guided methods. This design supports lightweight and fast models adaptable to various deployment environments. We evaluate 2Dto3D-SR with two implementations: one using Swin Transformers for high accuracy, and another using Vision Mamba for high efficiency. Experiments show the Swin Transformer model achieves state-of-the-art accuracy on standard benchmarks, while the Vision Mamba model delivers competitive results at real-time speeds. This establishes our geometry-guided pipeline as a surprisingly simple yet viable and practical solution for real-world scenarios, especially where high-resolution RGB data is inaccessible.
- Abstract(参考訳): 2Dto3D-SRは,高解像度RGBガイダンスの必要性をなくすために,リアルタイムシングルビュー3D超解像のための汎用フレームワークである。
本フレームワークは, 単一視点からの3次元データを構造化された2次元表現に符号化し, 既存の2次元画像超解像アーキテクチャの直接適用を可能にする。
我々は,PNCC(Projected Normalized Coordinate Code)を用いて,可視表面からの3次元幾何を正規画像として表現し,3次元点法やRGB誘導法の複雑さを回避する。
この設計では、軽量で高速なモデルが様々なデプロイメント環境に適応できる。
2Dto3D-SRとSwin Transformerを高精度に、Vision Mambaを高効率で2Dto3D-SRを評価した。
実験では、Swin Transformerモデルが標準ベンチマークで最先端の精度を達成するのに対して、Vision Mambaモデルはリアルタイムの速度で競合する結果をもたらす。
これにより、我々の幾何学誘導パイプラインは、特に高解像度のRGBデータがアクセスできない現実世界のシナリオに対して驚くほど単純で実用的なソリューションとして確立されます。
関連論文リスト
- Surf3R: Rapid Surface Reconstruction from Sparse RGB Views in Seconds [34.38496869014632]
Surf3Rは、カメラのポーズを見積もることなく、スパースビューから3D表面を再構築するエンドツーエンドのフィードフォワードアプローチである。
提案手法では,複数参照ビューが共同で再構成プロセスをガイドするマルチブランチ・マルチビューデコーディングアーキテクチャを採用している。
論文 参考訳(メタデータ) (2025-08-06T14:53:42Z) - Global-Aware Monocular Semantic Scene Completion with State Space Models [25.621011183332094]
Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。
既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。
GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-09T11:55:40Z) - Direct and Explicit 3D Generation from a Single Image [25.207277983430608]
マルチビュー2次元深度画像とRGB画像を用いて表面形状とテクスチャを直接生成する新しいフレームワークを提案する。
画素レベルの多視点整合性を実現するために,エピポーラの注意を潜時から画素間デコーダに組み込む。
生成した深度画素を3次元空間にバックプロジェクションすることにより、構造化された3次元表現を生成する。
論文 参考訳(メタデータ) (2024-11-17T03:14:50Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation [34.01352591390208]
本稿では,高分解能3次元画像と形状生成技術を導入し,StyleSDFと呼ぶ。
本手法は, 単視点RGBデータのみをトレーニングし, 画像生成のためのStyleGAN2の肩の上に立つ。
論文 参考訳(メタデータ) (2021-12-21T18:45:45Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。