論文の概要: Generalizing Spatial Transformers to Projective Geometry with
Applications to 2D/3D Registration
- arxiv url: http://arxiv.org/abs/2003.10987v1
- Date: Tue, 24 Mar 2020 17:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:16:54.903765
- Title: Generalizing Spatial Transformers to Projective Geometry with
Applications to 2D/3D Registration
- Title(参考訳): 空間変換器の射影幾何学への一般化と2d/3d登録への応用
- Authors: Cong Gao, Xingtong Liu, Wenhao Gu, Benjamin Killeen, Mehran Armand,
Russell Taylor and Mathias Unberath
- Abstract要約: 微分レンダリングは、3Dシーンと対応する2D画像とを接続する技術である。
本稿では,空間変換器を射影幾何学に一般化する新しい射影空間変換器モジュールを提案する。
- 参考スコア(独自算出の注目度): 11.219924013808852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable rendering is a technique to connect 3D scenes with
corresponding 2D images. Since it is differentiable, processes during image
formation can be learned. Previous approaches to differentiable rendering focus
on mesh-based representations of 3D scenes, which is inappropriate for medical
applications where volumetric, voxelized models are used to represent anatomy.
We propose a novel Projective Spatial Transformer module that generalizes
spatial transformers to projective geometry, thus enabling differentiable
volume rendering. We demonstrate the usefulness of this architecture on the
example of 2D/3D registration between radiographs and CT scans. Specifically,
we show that our transformer enables end-to-end learning of an image processing
and projection model that approximates an image similarity function that is
convex with respect to the pose parameters, and can thus be optimized
effectively using conventional gradient descent. To the best of our knowledge,
this is the first time that spatial transformers have been described for
projective geometry. The source code will be made public upon publication of
this manuscript and we hope that our developments will benefit related 3D
research applications.
- Abstract(参考訳): 微分レンダリングは、3Dシーンと対応する2Dイメージを接続する技術である。
微分可能であるため、画像形成中のプロセスを学ぶことができる。
差別化可能なレンダリングに対する従来のアプローチは、3Dシーンのメッシュベースの表現に重点を置いていた。
本稿では,空間変換器を射影幾何学に一般化した新しい射影空間変換器モジュールを提案する。
本アーキテクチャの有用性を,ラジオグラフとctスキャンの2d/3d登録例で示す。
具体的には,ポーズパラメータに対して凸な画像類似度関数を近似した画像処理と投影モデルのエンドツーエンド学習が可能であり,従来の勾配勾配を用いて効果的に最適化可能であることを示す。
私たちの知る限りでは、空間トランスフォーマーが射影幾何学のために記述されたのはこれが初めてです。
ソースコードはこの原稿の公開時に公開され、我々の開発が関連する3D研究アプリケーションに利益をもたらすことを期待します。
関連論文リスト
- GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - TP3M: Transformer-based Pseudo 3D Image Matching with Reference Image [0.9831489366502301]
トランスフォーマーを用いた擬似3次元画像マッチング手法を提案する。
ソース画像から抽出した2D特徴を参照画像の助けを借りて3D特徴にアップグレードし、目的地画像から抽出した2D特徴にマッチする。
複数のデータセットに対する実験結果から, 提案手法は, ホモグラフィ推定, ポーズ推定, 視覚的ローカライゼーションのタスクにおいて, 最先端の課題を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-14T08:56:09Z) - Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - Multiple View Geometry Transformers for 3D Human Pose Estimation [35.26756920323391]
多視点人間のポーズ推定におけるトランスフォーマーの3次元推論能力の向上を目指す。
本稿では,一連の幾何学的および外観的モジュールを反復的に構成した新しいハイブリッドモデルMVGFormerを提案する。
論文 参考訳(メタデータ) (2023-11-18T06:32:40Z) - Unaligned 2D to 3D Translation with Conditional Vector-Quantized Code
Diffusion using Transformers [26.500355873271634]
本稿では,ベクトル量子化符号を用いた条件拡散に基づく,単純で斬新な2Dから3D合成手法を提案する。
情報豊富なコード空間で操作することで、ビュー全体にわたるフルカバレッジの注意を通して、高解像度の3D合成が可能になる。
論文 参考訳(メタデータ) (2023-08-27T16:22:09Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text
Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。
我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文 参考訳(メタデータ) (2023-06-29T17:17:57Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。