論文の概要: Sequence Matters: Harnessing Video Models in 3D Super-Resolution
- arxiv url: http://arxiv.org/abs/2412.11525v3
- Date: Sat, 21 Dec 2024 10:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:20:48.700130
- Title: Sequence Matters: Harnessing Video Models in 3D Super-Resolution
- Title(参考訳): 3D超解像における映像モデルのハーネス化
- Authors: Hyun-kyu Ko, Dongheok Park, Youngin Park, Byeonghyeon Lee, Juhee Han, Eunbyung Park,
- Abstract要約: 3次元超解像は、低解像度(LR)マルチビュー画像から高忠実度3Dモデルを再構成することを目的としている。
ビデオ超解像モデル(VSR)を利用した3次元超解像の包括的研究を行う。
以上の結果から,VSRモデルでは正確な空間アライメントが欠如している配列でも極めて良好に動作できることが判明した。
- 参考スコア(独自算出の注目度): 3.009577929630171
- License:
- Abstract: 3D super-resolution aims to reconstruct high-fidelity 3D models from low-resolution (LR) multi-view images. Early studies primarily focused on single-image super-resolution (SISR) models to upsample LR images into high-resolution images. However, these methods often lack view consistency because they operate independently on each image. Although various post-processing techniques have been extensively explored to mitigate these inconsistencies, they have yet to fully resolve the issues. In this paper, we perform a comprehensive study of 3D super-resolution by leveraging video super-resolution (VSR) models. By utilizing VSR models, we ensure a higher degree of spatial consistency and can reference surrounding spatial information, leading to more accurate and detailed reconstructions. Our findings reveal that VSR models can perform remarkably well even on sequences that lack precise spatial alignment. Given this observation, we propose a simple yet practical approach to align LR images without involving fine-tuning or generating 'smooth' trajectory from the trained 3D models over LR images. The experimental results show that the surprisingly simple algorithms can achieve the state-of-the-art results of 3D super-resolution tasks on standard benchmark datasets, such as the NeRF-synthetic and MipNeRF-360 datasets. Project page: https://ko-lani.github.io/Sequence-Matters
- Abstract(参考訳): 3次元超解像は、低解像度(LR)マルチビュー画像から高忠実度3Dモデルを再構成することを目的としている。
初期の研究では、LR画像を高解像度画像にアップサンプリングするために、主にシングルイメージ超解像(SISR)モデルに焦点を当てていた。
しかし、これらの手法は各画像に対して独立して動作するため、ビューの一貫性に欠けることが多い。
これらの不整合を緩和するために様々なポストプロセッシング技術が広く研究されているが、まだ完全には解決していない。
本稿では,ビデオ超解像モデル(VSR)を利用した3次元超解像の包括的研究を行う。
VSRモデルを利用することで、より高度な空間整合性を確保し、周囲の空間情報を参照し、より正確で詳細な再構成を行うことができる。
以上の結果から,VSRモデルでは正確な空間アライメントが欠如している配列でも極めて良好に動作できることが判明した。
そこで本研究では, LR画像上での3次元モデルからの「滑らかな」軌跡の微調整や生成を伴わずに, LR画像の整列を簡易かつ実践的に行う手法を提案する。
実験結果から,NeRF合成データセットやMipNeRF-360データセットのような標準ベンチマークデータセット上での3次元超解像タスクの最先端結果が得られることがわかった。
プロジェクトページ:https://ko-lani.github.io/Sequence-Matters
関連論文リスト
- DiSR-NeRF: Diffusion-Guided View-Consistent Super-Resolution NeRF [50.458896463542494]
DiSR-NeRFは、ビュー一貫性を持つ超解像(SR)NeRFのための拡散誘導フレームワークである。
我々は,NeRFの固有多視点整合性により不整合問題を緩和するイテレーティブ3Dシンクロナイゼーション(I3DS)を提案する。
論文 参考訳(メタデータ) (2024-04-01T03:06:23Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - TULIP: Transformer for Upsampling of LiDAR Point Clouds [32.77657816997911]
LiDAR Upは、ロボットや自動運転車の認識システムにとって難しいタスクだ。
近年の研究では、3次元ユークリッド空間からのLiDARデータを2次元画像空間の超解像問題に変換することでこの問題を解決することを提案する。
低分解能LiDAR入力から高分解能LiDAR点雲を再構成する新しい方法であるTジオメトリを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:43:28Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image
Synthesis [92.25145204543904]
StyleNeRFは高解像度画像合成のための3次元認識型生成モデルである。
ニューラル放射場(NeRF)をスタイルベースジェネレータに統合する。
高品質な3D一貫性を維持しながら、対話的な速度で高解像度画像を合成することができる。
論文 参考訳(メタデータ) (2021-10-18T02:37:01Z) - 3D Human Pose, Shape and Texture from Low-Resolution Images and Videos [107.36352212367179]
本稿では,解像度認識ネットワーク,自己スーパービジョン損失,コントラスト学習スキームからなるrsc-netを提案する。
提案手法は1つのモデルで異なる解像度で3次元物体のポーズと形状を学習できる。
低解像度映像を扱うRSC-Netを拡張し、低解像度入力からテクスチャ化された3D歩行者の再構築に適用します。
論文 参考訳(メタデータ) (2021-03-11T06:52:12Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。