論文の概要: Geometry-biased Transformers for Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2301.04650v1
- Date: Wed, 11 Jan 2023 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:11:45.660619
- Title: Geometry-biased Transformers for Novel View Synthesis
- Title(参考訳): 新しいビュー合成のための幾何バイアス変換器
- Authors: Naveen Venkat, Mayank Agarwal, Maneesh Singh, Shubham Tulsiani
- Abstract要約: 入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、マルチビュー画像を(グローバル)セットラテント表現としてエンコードする最近の「幾何学自由」アプローチにインスパイアされている。
本稿では, 幾何学的帰納バイアスをセットレイト表現に基づく推論に組み込んだ「幾何学バイアス変換器」(GBT)を提案する。
- 参考スコア(独自算出の注目度): 36.11342728319563
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We tackle the task of synthesizing novel views of an object given a few input
images and associated camera viewpoints. Our work is inspired by recent
'geometry-free' approaches where multi-view images are encoded as a (global)
set-latent representation, which is then used to predict the color for
arbitrary query rays. While this representation yields (coarsely) accurate
images corresponding to novel viewpoints, the lack of geometric reasoning
limits the quality of these outputs. To overcome this limitation, we propose
'Geometry-biased Transformers' (GBTs) that incorporate geometric inductive
biases in the set-latent representation-based inference to encourage multi-view
geometric consistency. We induce the geometric bias by augmenting the
dot-product attention mechanism to also incorporate 3D distances between rays
associated with tokens as a learnable bias. We find that this, along with
camera-aware embeddings as input, allows our models to generate significantly
more accurate outputs. We validate our approach on the real-world CO3D dataset,
where we train our system over 10 categories and evaluate its view-synthesis
ability for novel objects as well as unseen categories. We empirically validate
the benefits of the proposed geometric biases and show that our approach
significantly improves over prior works.
- Abstract(参考訳): 入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、最近の「幾何学自由」なアプローチに触発され、マルチビュー画像は(グローバル)集合遅延表現として符号化され、任意のクエリ線の色を予測するために使用される。
この表現は(明らかに)新しい視点に対応する正確な画像をもたらすが、幾何学的推論の欠如はこれらの出力の品質を制限している。
この制限を克服するために,多視点の幾何学的一貫性を促進するために,集合相対表現に基づく推論に幾何学的帰納的バイアスを組み込んだ「幾何偏差トランスフォーマー」(gbts)を提案する。
また,線間の3次元距離を学習可能なバイアスとして組み込むために,点生成注意機構を補強することにより,幾何学的バイアスを誘導する。
カメラを意識した埋め込みを入力として組み込むことで、モデルがはるかに正確な出力を生成できることが分かりました。
実世界のCO3Dデータセットにアプローチを検証し,10のカテゴリにまたがってシステムをトレーニングし,新規なオブジェクトや未知のカテゴリに対するビュー合成能力を評価する。
我々は,提案する幾何バイアスの利点を実証的に検証し,そのアプローチが先行研究よりも大幅に改善することを示す。
関連論文リスト
- G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Learning to Render Novel Views from Wide-Baseline Stereo Pairs [26.528667940013598]
本稿では,単一の広線ステレオ画像ペアのみを付与した新しいビュー合成手法を提案する。
スパース観測による新しいビュー合成への既存のアプローチは、誤った3次元形状の復元によって失敗する。
対象光線に対する画像特徴を組み立てるための,効率的な画像空間のエピポーラ線サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-04-17T17:40:52Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Geometry-Free View Synthesis: Transformers and no 3D Priors [16.86600007830682]
トランスフォーマーモデルでは,手作業による3次元バイアスを伴わずに全く新しいビューを合成できることを示す。
i)ソースビューとターゲットビューの長距離3D対応を暗黙的に学習するグローバルアテンションメカニズムによって実現される。
論文 参考訳(メタデータ) (2021-04-15T17:58:05Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。