Fugu-MT 論文翻訳(概要): Unaligned 2D to 3D Translation with Conditional Vector-Quantized Code Diffusion using Transformers

論文の概要: Unaligned 2D to 3D Translation with Conditional Vector-Quantized Code Diffusion using Transformers

arxiv url: http://arxiv.org/abs/2308.14152v1
Date: Sun, 27 Aug 2023 16:22:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 16:35:57.636335
Title: Unaligned 2D to 3D Translation with Conditional Vector-Quantized Code Diffusion using Transformers
Title（参考訳）: 変圧器を用いた条件ベクトル量子コード拡散による2次元から3次元の非整合変換
Authors: Abril Corona-Figueroa, Sam Bond-Taylor, Neelanjan Bhowmik, Yona Falinie A. Gaus, Toby P. Breckon, Hubert P. H. Shum, Chris G. Willcocks
Abstract要約: 本稿では,ベクトル量子化符号を用いた条件拡散に基づく,単純で斬新な2Dから3D合成手法を提案する。情報豊富なコード空間で操作することで、ビュー全体にわたるフルカバレッジの注意を通して、高解像度の3D合成が可能になる。
参考スコア（独自算出の注目度）: 26.500355873271634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating 3D images of complex objects conditionally from a few 2D views is a difficult synthesis problem, compounded by issues such as domain gap and geometric misalignment. For instance, a unified framework such as Generative Adversarial Networks cannot achieve this unless they explicitly define both a domain-invariant and geometric-invariant joint latent distribution, whereas Neural Radiance Fields are generally unable to handle both issues as they optimize at the pixel level. By contrast, we propose a simple and novel 2D to 3D synthesis approach based on conditional diffusion with vector-quantized codes. Operating in an information-rich code space enables high-resolution 3D synthesis via full-coverage attention across the views. Specifically, we generate the 3D codes (e.g. for CT images) conditional on previously generated 3D codes and the entire codebook of two 2D views (e.g. 2D X-rays). Qualitative and quantitative results demonstrate state-of-the-art performance over specialized methods across varied evaluation criteria, including fidelity metrics such as density, coverage, and distortion metrics for two complex volumetric imagery datasets from in real-world scenarios.
Abstract（参考訳）: いくつかの2次元ビューから条件付きで複雑な物体の3次元画像を生成することは、ドメインギャップや幾何学的ミスアライメントといった問題によって合成される難しい問題である。例えば、生成逆ネットワークのような統一的なフレームワークは、ドメイン不変と幾何学不変のジョイント潜在分布の両方を明示的に定義しない限り、これを達成できない。対照的に,ベクトル量子化符号を用いた条件拡散に基づく,単純で斬新な2Dから3D合成手法を提案する。情報豊富なコード空間で操作することで、ビュー全体にわたるフルカバレッジの注意を通して高解像度の3D合成が可能になる。具体的には、予め生成された3dコードと2つの2dビュー(例えば2d x線)のコードブックの条件付き3dコード(例えばct画像)を生成する。質的および定量的な結果は、実世界のシナリオから得られた2つの複雑な容積画像データセットの密度、カバレッジ、歪みなどの忠実度測定値を含む、様々な評価基準にまたがる専門的な手法に対する最先端のパフォーマンスを示す。

関連論文リスト

GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文参考訳（メタデータ） (2025-03-08T09:10:31Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing [22.39760469467524]
本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
論文参考訳（メタデータ） (2024-07-05T12:11:33Z)
Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文参考訳（メタデータ） (2024-06-26T15:18:20Z)
NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文参考訳（メタデータ） (2023-09-26T02:09:52Z)
Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文参考訳（メタデータ） (2022-12-14T18:49:50Z)
Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator [68.0533826852601]
3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。既存の方法では、適度な3D形状が得られない。本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:37Z)
3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文参考訳（メタデータ） (2022-02-17T09:54:29Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。 emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文参考訳（メタデータ） (2021-03-26T08:31:39Z)
Generalizing Spatial Transformers to Projective Geometry with Applications to 2D/3D Registration [11.219924013808852]
微分レンダリングは、3Dシーンと対応する2D画像とを接続する技術である。本稿では,空間変換器を射影幾何学に一般化する新しい射影空間変換器モジュールを提案する。
論文参考訳（メタデータ） (2020-03-24T17:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。