Fugu-MT 論文翻訳(概要): A Single Image and Multimodality Is All You Need for Novel View Synthesis

論文の概要: A Single Image and Multimodality Is All You Need for Novel View Synthesis

arxiv url: http://arxiv.org/abs/2602.17909v1
Date: Fri, 20 Feb 2026 00:13:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.185787
Title: A Single Image and Multimodality Is All You Need for Novel View Synthesis
Title（参考訳）: 新しいビュー・シンセサイザーに必要な画像とマルチモーダリティ
Authors: Amirhosein Javadi, Chi-Shiang Gau, Konstantinos D. Polyzos, Tara Javidi,
Abstract要約: スパースマルチモーダルレンジ測定を組み込むことによって,拡散に基づくアプローチの限界を克服する上で,単純かつ効果的な方法が提供されることを示す。本稿では,自動車レーダやLiDARなどの極端にスパースな距離センシングデータを活用するマルチモーダル深度再構成フレームワークを提案する。本手法は,局所化ガウス過程の定式化を用いて,角領域の深さをモデル化し,計算効率の良い推論を可能にする。
参考スコア（独自算出の注目度）: 8.273110298367644
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion-based approaches have recently demonstrated strong performance for single-image novel view synthesis by conditioning generative models on geometry inferred from monocular depth estimation. However, in practice, the quality and consistency of the synthesized views are fundamentally limited by the reliability of the underlying depth estimates, which are often fragile under low texture, adverse weather, and occlusion-heavy real-world conditions. In this work, we show that incorporating sparse multimodal range measurements provides a simple yet effective way to overcome these limitations. We introduce a multimodal depth reconstruction framework that leverages extremely sparse range sensing data, such as automotive radar or LiDAR, to produce dense depth maps that serve as robust geometric conditioning for diffusion-based novel view synthesis. Our approach models depth in an angular domain using a localized Gaussian Process formulation, enabling computationally efficient inference while explicitly quantifying uncertainty in regions with limited observations. The reconstructed depth and uncertainty are used as a drop-in replacement for monocular depth estimators in existing diffusion-based rendering pipelines, without modifying the generative model itself. Experiments on real-world multimodal driving scenes demonstrate that replacing vision-only depth with our sparse range-based reconstruction substantially improves both geometric consistency and visual quality in single-image novel-view video generation. These results highlight the importance of reliable geometric priors for diffusion-based view synthesis and demonstrate the practical benefits of multimodal sensing even at extreme levels of sparsity.
Abstract（参考訳）: 拡散に基づくアプローチは, 単分子深度推定から推定される幾何学上の生成モデルを条件づけることにより, 単一画像の新規ビュー合成に強い性能を示した。しかし、実際には、合成されたビューの品質と一貫性は、基礎となる深さ推定の信頼性によって基本的に制限されている。本研究では,スパースマルチモーダルレンジ測定を組み込むことによって,これらの制限を克服する簡便かつ効果的な方法が提供されることを示す。本研究では,自動車レーダやLiDARなどの極端にスパースな距離検出データを活用する多モード深度再構成フレームワークを導入し,拡散に基づく新規ビュー合成のためのロバストな幾何学的条件付けとして機能する密集深度マップを作成する。本手法は局所化ガウス過程の定式化を用いて,角領域の深度をモデル化する。再構成された深さと不確実性は、生成モデル自体を変更することなく、既存の拡散ベースのレンダリングパイプラインにおける単分子深度推定器のドロップイン置換として使用される。実世界のマルチモーダルドライビングシーンでの実験では、視覚のみの奥行きをスパースレンジベースで再現することで、単一画像のノベルビュービデオ生成における幾何的一貫性と視覚的品質を大幅に改善することを示した。これらの結果は、拡散に基づくビュー合成における信頼性の高い幾何学的先行性の重要性を強調し、極度の空間性においてもマルチモーダルセンシングの実用的メリットを示す。

関連論文リスト

MaterialRefGS: Reflective Gaussian Splatting with Multi-view Consistent Material Inference [83.38607296779423]
より物理的な環境モデルを用いた多視点一貫した物質推定がガウススプラッティングによる正確な反射の学習の鍵となることを示す。本手法は照明と幾何学の両方を忠実に復元し,新しいビュー合成における最先端のレンダリング品質を実現する。
論文参考訳（メタデータ） (2025-10-13T13:29:20Z)
JointSplat: Probabilistic Joint Flow-Depth Optimization for Sparse-View Gaussian Splatting [10.690965024885358]
スパースの観点から3Dシーンを再構築することは、幅広いアプリケーションにおいて長年にわたる課題である。近年のフィードフォワード3Dガウスのスパースビュー再構成法は, リアルタイムな新規ビュー合成のための効率的な解法である。光学的流れと深さの相補性を利用する統一的なフレームワークであるJointSplatを提案する。
論文参考訳（メタデータ） (2025-06-04T12:04:40Z)
MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and Reconstruction [45.70946415376022]
単分子深度は3次元再構成や新しいビュー合成といった多視点タスクにおいてニューラルレンダリングによって広く採用されている。現在の手法では、推定深度マップ全体を無差別に扱い、地上の真実の監督として利用している。モノインスタンス(MonoInstance)は,モノクラー深度の不確かさを探索し,拡張された幾何学的事前情報を提供する一般手法である。
論文参考訳（メタデータ） (2025-03-24T05:58:06Z)
Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文参考訳（メタデータ） (2025-03-18T17:54:06Z)
TensoIR: Tensorial Inverse Rendering [51.57268311847087]
テンソルIRはテンソル分解とニューラルフィールドに基づく新しい逆レンダリング手法である。 TensoRFは、放射場モデリングのための最先端のアプローチである。
論文参考訳（メタデータ） (2023-04-24T21:39:13Z)
DeLiRa: Self-Supervised Depth, Light, and Radiance Fields [32.350984950639656]
可変ボリュームレンダリングは、3次元再構成と新しいビュー合成のための強力なパラダイムである。標準的なボリュームレンダリングアプローチは、視点の多様性が限られている場合、縮退したジオメトリーと競合する。本研究では,多視点測光目標を体積レンダリングのための幾何正則化器として用いることを提案する。
論文参考訳（メタデータ） (2023-04-06T00:16:25Z)
MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface Reconstruction [72.05649682685197]
最先端のニューラル暗黙法は、多くの入力ビューから単純なシーンの高品質な再構築を可能にする。これは主に、十分な制約を提供していないRGB再構築損失の固有の曖昧さによって引き起こされる。近年の単分子形状予測の分野での進歩に触発され, ニューラルな暗黙的表面再構成の改善にこれらの方法が役立つかを探究する。
論文参考訳（メタデータ） (2022-06-01T17:58:15Z)
InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering [55.70938412352287]
ニューラルな暗黙表現に基づく数ショットの新規ビュー合成のための情報理論正規化手法を提案する。提案手法は,不十分な視点で発生する潜在的な復元の不整合を最小化する。複数の標準ベンチマークにおいて,既存のニューラルビュー合成手法と比較して一貫した性能向上を実現している。
論文参考訳（メタデータ） (2021-12-31T11:56:01Z)
Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文参考訳（メタデータ） (2020-11-26T04:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。