Fugu-MT 論文翻訳(概要): Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling

論文の概要: Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling

arxiv url: http://arxiv.org/abs/2406.18422v1
Date: Wed, 26 Jun 2024 15:18:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 13:00:05.278008
Title: Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling
Title（参考訳）: 反復と連結:3次元から3次元生成モデルによる2次元から3次元への画像変換
Authors: Abril Corona-Figueroa, Hubert P. H. Shum, Chris G. Willcocks,
Abstract要約: 本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
参考スコア（独自算出の注目度）: 14.341099905684844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates a 2D to 3D image translation method with a straightforward technique, enabling correlated 2D X-ray to 3D CT-like reconstruction. We observe that existing approaches, which integrate information across multiple 2D views in the latent space, lose valuable signal information during latent encoding. Instead, we simply repeat and concatenate the 2D views into higher-channel 3D volumes and approach the 3D reconstruction challenge as a straightforward 3D to 3D generative modeling problem, sidestepping several complex modeling issues. This method enables the reconstructed 3D volume to retain valuable information from the 2D inputs, which are passed between channel states in a Swin UNETR backbone. Our approach applies neural optimal transport, which is fast and stable to train, effectively integrating signal information across multiple views without the requirement for precise alignment; it produces non-collapsed reconstructions that are highly faithful to the 2D views, even after limited training. We demonstrate correlated results, both qualitatively and quantitatively, having trained our model on a single dataset and evaluated its generalization ability across six datasets, including out-of-distribution samples.
Abstract（参考訳）: 本稿では, 直接的手法を用いて2次元から3次元への画像変換手法について検討し, 3次元CTに類似した2次元X線と3次元CTライクな再構成を可能にした。潜在空間における複数の2次元ビューにまたがる情報を統合する既存の手法は、潜時符号化において貴重な信号情報を失う。代わりに、2Dビューを高チャンネルの3Dボリュームに分割し、単純な3Dから3D生成モデル問題として3D再構成課題にアプローチし、いくつかの複雑なモデリング問題をサイドステッピングする。この方法では、再構成された3Dボリュームが、Swin UNETRバックボーン内のチャネル状態間で渡される2D入力から貴重な情報を保持することができる。本手法では, 高速かつ安定なニューラル最適輸送を応用し, 正確なアライメントを必要とせずに複数のビューに信号情報を効果的に統合し, 限られた訓練をしても2次元ビューに忠実な非崩壊的再構成を生成する。定性的かつ定量的に相関した結果を示し、我々のモデルを1つのデータセットで訓練し、アウト・オブ・ディストリビューション・サンプルを含む6つのデータセットにわたる一般化能力を評価した。

関連論文リスト

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文参考訳（メタデータ） (2025-06-26T11:22:06Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文参考訳（メタデータ） (2024-08-16T07:52:00Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文参考訳（メタデータ） (2023-12-07T10:00:04Z)
Geometry-Aware Attenuation Learning for Sparse-View CBCT Reconstruction [53.93674177236367]
Cone Beam Computed Tomography (CBCT) は臨床画像撮影において重要な役割を担っている。従来の方法では、高品質な3D CBCT画像の再構成には数百の2次元X線投影が必要である。これにより、放射線線量を減らすため、スパースビューCBCT再構成への関心が高まっている。本稿では,この問題を解決するために,新しい幾何対応エンコーダデコーダフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-26T14:38:42Z)
Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。最近、研究者は焦点を2Dから3Dにシフトし始めた。 3Dデータの表現は、非常に大きな課題をもたらします。
論文参考訳（メタデータ） (2022-10-27T17:59:50Z)
To The Point: Correspondence-driven monocular 3D category reconstruction [39.811816510186475]
To The Point (TTP) は、弱い監督から学んだ2Dから3D対応を用いて、単一の画像から3Dオブジェクトを再構成する手法である。我々は、CNNによるカメラポーズと非剛性変形の回帰を置き換え、より正確な3D再構成を得る。
論文参考訳（メタデータ） (2021-06-10T11:21:14Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)
Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2020-12-16T21:39:53Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文参考訳（メタデータ） (2020-04-07T20:21:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。