Fugu-MT 論文翻訳(概要): The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge

論文の概要: The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge

arxiv url: http://arxiv.org/abs/2506.09885v1
Date: Wed, 11 Jun 2025 15:57:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.110914
Title: The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge
Title（参考訳）: 3Dの知識を必要とせずに、まばらで無作為な画像から新しいビューを合成する
Authors: Haoru Wang, Kai Ye, Yangyan Li, Wenzheng Chen, Baoquan Chen,
Abstract要約: 一般化可能な新規ビュー合成(NVS)の問題を考える。 NVSは、シーンごとの最適化なしにスパースやアンポーズされた2D画像から新しいビューを生成することを目的としている。我々は,3次元誘導バイアスを最小限に抑え,入力とターゲットの両方のビューに依存性を生じさせる新しいNVSフレームワークを提案する。
参考スコア（独自算出の注目度）: 28.53942289386553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the problem of generalizable novel view synthesis (NVS), which aims to generate photorealistic novel views from sparse or even unposed 2D images without per-scene optimization. This task remains fundamentally challenging, as it requires inferring 3D structure from incomplete and ambiguous 2D observations. Early approaches typically rely on strong 3D knowledge, including architectural 3D inductive biases (e.g., embedding explicit 3D representations, such as NeRF or 3DGS, into network design) and ground-truth camera poses for both input and target views. While recent efforts have sought to reduce the 3D inductive bias or the dependence on known camera poses of input views, critical questions regarding the role of 3D knowledge and the necessity of circumventing its use remain under-explored. In this work, we conduct a systematic analysis on the 3D knowledge and uncover a critical trend: the performance of methods that requires less 3D knowledge accelerates more as data scales, eventually achieving performance on par with their 3D knowledge-driven counterparts, which highlights the increasing importance of reducing dependence on 3D knowledge in the era of large-scale data. Motivated by and following this trend, we propose a novel NVS framework that minimizes 3D inductive bias and pose dependence for both input and target views. By eliminating this 3D knowledge, our method fully leverages data scaling and learns implicit 3D awareness directly from sparse 2D images, without any 3D inductive bias or pose annotation during training. Extensive experiments demonstrate that our model generates photorealistic and 3D-consistent novel views, achieving even comparable performance with methods that rely on posed inputs, thereby validating the feasibility and effectiveness of our data-centric paradigm. Project page: https://pku-vcl-geometry.github.io/Less3Depend/ .
Abstract（参考訳）: 本研究では,空間ごとの最適化を行なわずにスパースやアンポーズな2次元画像から光リアルな新規ビューを生成することを目的とした,一般化可能な新規ビュー合成(NVS)の課題について考察する。この課題は、不完全で曖昧な2次元観測から3次元構造を推定する必要があるため、基本的に難しいままである。初期のアプローチは、3Dインダクティブバイアス(例えば、NeRFや3DGSのような明示的な3D表現をネットワーク設計に組み込む)や、入力とターゲットの両方のビューのための地平線カメラのポーズなど、強い3D知識に依存していた。近年,3Dインダクティブ・バイアスの低減や,既知のカメラ・ポーズへの依存の低減が試みられているが,3D知識の役割や回避の必要性に関する批判的な疑問はいまだ未解決のままである。本研究は,3次元知識を体系的に分析し,より少ない3次元知識を要求される手法の性能がデータスケールで向上し,最終的には大規模データ時代における3次元知識への依存を減らすことの重要性が強調される。この傾向を背景として、3次元誘導バイアスを最小化し、入力とターゲットの両方のビューに依存性を示す新しいNVSフレームワークを提案する。この3D知識をなくすことにより、トレーニング中に3D帰納的バイアスやアノテーションを伴わずに、データスケーリングを完全に活用し、スパース2D画像から直接暗黙的な3D認識を学習する。広汎な実験により,本モデルはフォトリアリスティックかつ3D一貫性のある新規なビューを生成し,提案した入力に依存する手法と同等の性能を実現し,データ中心のパラダイムの有効性と有効性を検証する。プロジェクトページ: https://pku-vcl-geometry.github.io/Less3Depend/。

関連論文リスト

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。 3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文参考訳（メタデータ） (2025-06-05T17:56:12Z)
DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文参考訳（メタデータ） (2025-03-26T04:23:53Z)
ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文参考訳（メタデータ） (2024-10-31T15:02:05Z)
3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文参考訳（メタデータ） (2024-08-12T13:53:40Z)
SE3D: A Framework For Saliency Method Evaluation In 3D Imaging [4.090991964172346]
3D畳み込みニューラルネットワーク(3D CNN)は、LIDAR、MRI、CTスキャンを処理できる。 Explainable Artificial Intelligenceの最近の進歩にもかかわらず、3D CNNの説明にはほとんど注力していない。本稿では,3次元イメージングにおけるSaliency Method EvaluationのためのフレームワークSE3Dを提案する。
論文参考訳（メタデータ） (2024-05-23T13:55:11Z)
Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。 SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文参考訳（メタデータ） (2024-02-29T13:26:47Z)
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文参考訳（メタデータ） (2023-12-11T18:59:18Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文参考訳（メタデータ） (2020-04-07T20:21:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。