Fugu-MT 論文翻訳(概要): EpipolarNVS: leveraging on Epipolar geometry for single-image Novel View Synthesis

論文の概要: EpipolarNVS: leveraging on Epipolar geometry for single-image Novel View Synthesis

arxiv url: http://arxiv.org/abs/2210.13077v1
Date: Mon, 24 Oct 2022 09:54:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 17:36:27.773477
Title: EpipolarNVS: leveraging on Epipolar geometry for single-image Novel View Synthesis
Title（参考訳）: epipolarnvs: エピポーラ幾何を用いた単一画像の新規ビュー合成
Authors: Ga\'etan Landreau and Mohamed Tamaazousti
Abstract要約: 新規ビュー合成(NVS)は、一般的な設定によって異なるアプローチで取り組むことができる。最も難しいシナリオは、私たちがこの仕事で立っているもので、別の視点から新しいものを生成するためのユニークなソースイメージのみを考えます。本稿では2次元特徴像として視点変換を符号化する革新的な手法を提案する。
参考スコア（独自算出の注目度）: 6.103988053817792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Novel-view synthesis (NVS) can be tackled through different approaches, depending on the general setting: a single source image to a short video sequence, exact or noisy camera pose information, 3D-based information such as point clouds etc. The most challenging scenario, the one where we stand in this work, only considers a unique source image to generate a novel one from another viewpoint. However, in such a tricky situation, the latest learning-based solutions often struggle to integrate the camera viewpoint transformation. Indeed, the extrinsic information is often passed as-is, through a low-dimensional vector. It might even occur that such a camera pose, when parametrized as Euler angles, is quantized through a one-hot representation. This vanilla encoding choice prevents the learnt architecture from inferring novel views on a continuous basis (from a camera pose perspective). We claim it exists an elegant way to better encode relative camera pose, by leveraging 3D-related concepts such as the epipolar constraint. We, therefore, introduce an innovative method that encodes the viewpoint transformation as a 2D feature image. Such a camera encoding strategy gives meaningful insights to the network regarding how the camera has moved in space between the two views. By encoding the camera pose information as a finite number of coloured epipolar lines, we demonstrate through our experiments that our strategy outperforms vanilla encoding.
Abstract（参考訳）: ノベルビュー合成(nvs)は、短いビデオシーケンスへの単一のソース画像、正確なまたはノイズの多いカメラポーズ情報、ポイントクラウドなどの3dベースの情報など、一般的な設定によって異なるアプローチで取り組めます。最も難しいシナリオは、私たちがこの仕事で立っているもので、別の視点から新しいものを生成するためのユニークなソースイメージのみを考えます。しかし、このような厄介な状況では、最新の学習ベースのソリューションは、しばしばカメラ視点変換を統合するのに苦労する。実際、外部情報はしばしば低次元ベクトルを通して-isとして渡される。そのようなカメラのポーズが、オイラー角としてパラメトリケートされたとき、一点の表現によって量子化されるかもしれない。このバニラ符号化選択は、学習したアーキテクチャが(カメラポーズの観点から)新しいビューを連続的に推測することを妨げる。エピポーラ制約のような3D関連概念を活用することで、相対カメラのポーズをよりよくエンコードするエレガントな方法が存在すると我々は主張する。そこで,2次元特徴像として視点変換を符号化する革新的な手法を提案する。このようなカメラエンコーディング戦略は、カメラが2つのビューの間の空間にどのように移動したかについて、ネットワークに有意義な洞察を与える。カメラのポーズ情報を有限個の色付きエピポーラ線として符号化することにより、我々の戦略がバニラ符号化より優れていることを示す。

関連論文リスト

Cameras as Relative Positional Encoding [37.675563572777136]
マルチビュートランスは3次元空間で視覚トークンを接地するためにカメラジオメトリを使用する必要がある。フィードフォワード新規ビュー合成における相対カメラコンディショニングによる性能向上効果を示す。次に、これらの利点が様々なタスク、ステレオ深度推定、識別的認知、およびより大きなモデルサイズに持続していることを検証する。
論文参考訳（メタデータ） (2025-07-14T17:22:45Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。本定式化は単眼および両眼の再建症例を円滑に統一することを示す。私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文参考訳（メタデータ） (2023-12-21T18:52:14Z)
Free3D: Consistent Novel View Synthesis without 3D Representation [63.931920010054064]
Free3Dは単分子開集合新規ビュー合成(NVS)の簡易的高精度な方法である同様のアプローチを採った他の作品と比較して,明快な3D表現に頼らずに大幅な改善が得られた。
論文参考訳（メタデータ） (2023-12-07T18:59:18Z)
RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。 RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Virtual Correspondence: Humans as a Cue for Extreme-View Geometry [104.09449367670318]
仮想対応(VC)という新しい概念を提示する。古典的な対応とは異なり、VCはビューをまたいでコビジュアライズする必要はない。極端な視点でカメラのポーズを回復するために、VCが古典的なバンドル調整とシームレスに統合できることを示します。
論文参考訳（メタデータ） (2022-06-16T17:59:42Z)
ViewFormer: NeRF-free Neural Rendering from Few Images Using Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文参考訳（メタデータ） (2022-03-18T21:08:23Z)
Learning Neural Representation of Camera Pose with Matrix Representation of Pose Shift via View Synthesis [105.37072293076767]
カメラポーズを効果的に表現する方法は、3Dコンピュータビジョンの重要な問題です。カメラポーズと3Dシーンのニューラル表現を学習するためのアプローチを提案する。合成および実データに対する広範な実験を行う。
論文参考訳（メタデータ） (2021-04-04T00:40:53Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。