論文の概要: One View Is Enough! Monocular Training for In-the-Wild Novel View Generation
- arxiv url: http://arxiv.org/abs/2603.23488v1
- Date: Tue, 24 Mar 2026 17:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.627666
- Title: One View Is Enough! Monocular Training for In-the-Wild Novel View Generation
- Title(参考訳): ワンビュー! ワンビジョンで新しいビュー生成のための単眼トレーニング
- Authors: Adrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard,
- Abstract要約: 我々は、未完成のインターネット画像で完全に訓練されたOVIEを提示する。
推定では、OVIEは幾何学的自由であり、深さ推定器や3D表現を必要としない。
フィールド内でのみ訓練されたOVIEは、ゼロショット設定で以前のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 10.527943464467203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.
- Abstract(参考訳): 単眼のノベルビュー合成は、長い間、データスケールと多様性の訓練を制限し、監督のために複数のビューイメージペアを必要としてきた。
必要ではない、と我々は主張する:一つの見方だけで十分だ。
我々は、未完成のインターネット画像で完全に訓練されたOVIEを提示する。
トレーニング時に単眼深度推定器を幾何学的足場として利用し、ソースイメージを3Dに上げ、サンプルカメラ変換を適用し、擬似ターゲットビューを得る。
隠蔽に対処するために,幾何的,知覚的,テクスチャ的損失を有効な領域に制限し,3000万枚の未処理画像のトレーニングを可能にするマスク付きトレーニング形式を導入する。
推定では、OVIEは幾何学的自由であり、深さ推定器や3D表現を必要としない。
OVIEは、Wildでのみ訓練された画像で、ゼロショット設定で従来のメソッドよりも優れており、第2ベットベースラインの600倍高速である。
コードとモデルはhttps://github.com/AdrienRR/ovie.comで公開されている。
関連論文リスト
- Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos [36.49978976710115]
本稿では、生のビデオフレームや多視点画像のみからビュー合成モデルを訓練するための新しい2段階戦略を提案する。
第1段階では、明示的な3D表現に頼ることなく、潜在空間で暗黙的にシーンを再構築することを学ぶ。
学習した潜入カメラと暗黙のシーン表現は、実世界と比較すると大きなギャップがある。
論文 参考訳(メタデータ) (2025-05-19T17:59:05Z) - ZeroGS: Training 3D Gaussian Splatting from Unposed Images [62.34149221132978]
我々はZeroGSを提案し、3DGSを何百もの未提示画像から訓練する。
本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。
提案手法は,最先端のポーズレスNeRF/3DGS法よりも高精度なカメラポーズを復元する。
論文 参考訳(メタデータ) (2024-11-24T11:20:48Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - SymFormer: End-to-end symbolic regression using transformer-based
architecture [2.2049183478692584]
そこで我々はSymFormerという変圧器に基づく手法を提案し,各シンボルと対応する定数を同時に出力することで式を予測する。
我々は,SymFormerが2つの最先端メソッドを高速な推論で上回り,その性能をベンチマークで示す。
論文 参考訳(メタデータ) (2022-05-31T13:01:50Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation
from Video [23.00696619207748]
ビデオから3D人間のポーズを推定することは難しい問題です。
3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、見えないデータセットへの一般化の大きな障害です。
3dアノテーションやキャリブレーションカメラを必要としない弱い教師付きトレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-14T00:46:48Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。