論文の概要: EscherNet++: Simultaneous Amodal Completion and Scalable View Synthesis through Masked Fine-Tuning and Enhanced Feed-Forward 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2507.07410v1
- Date: Thu, 10 Jul 2025 04:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.266912
- Title: EscherNet++: Simultaneous Amodal Completion and Scalable View Synthesis through Masked Fine-Tuning and Enhanced Feed-Forward 3D Reconstruction
- Title(参考訳): EscherNet++: Masked Fine-Tuningと強化フィードフォワード3D再構成によるアモーダルコンプリートとスケーラブルビューの同時合成
- Authors: Xinan Zhang, Muhammad Zubair Irshad, Anthony Yezzi, Yi-Chang Tsai, Zsolt Kira,
- Abstract要約: EscherNet++は、オブジェクトの新規ビューをアモーダルコンプリート機能でゼロショットで合成することができる。
提案手法は,PSNRを3.9倍,Volume IoUを0.28倍改善した。
- 参考スコア(独自算出の注目度): 20.03311664719959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose EscherNet++, a masked fine-tuned diffusion model that can synthesize novel views of objects in a zero-shot manner with amodal completion ability. Existing approaches utilize multiple stages and complex pipelines to first hallucinate missing parts of the image and then perform novel view synthesis, which fail to consider cross-view dependencies and require redundant storage and computing for separate stages. Instead, we apply masked fine-tuning including input-level and feature-level masking to enable an end-to-end model with the improved ability to synthesize novel views and conduct amodal completion. In addition, we empirically integrate our model with other feed-forward image-to-mesh models without extra training and achieve competitive results with reconstruction time decreased by 95%, thanks to its ability to synthesize arbitrary query views. Our method's scalable nature further enhances fast 3D reconstruction. Despite fine-tuning on a smaller dataset and batch size, our method achieves state-of-the-art results, improving PSNR by 3.9 and Volume IoU by 0.28 on occluded tasks in 10-input settings, while also generalizing to real-world occluded reconstruction.
- Abstract(参考訳): 本研究では,オブジェクトの新たなビューをゼロショットで合成し,アモーダルコンプリート機能を備えたマスク付き微調整拡散モデルであるEscherNet++を提案する。
既存のアプローチでは、複数のステージと複雑なパイプラインを使用して、画像の欠如部分を幻覚し、新しいビュー合成を行う。
代わりに、入力レベルと特徴レベルのマスキングを含むマスクファインタニングを適用し、新しいビューを合成し、アモーダルコンプリートを実行する能力を改善したエンドツーエンドモデルを実現する。
さらに,任意のクエリビューを合成する能力により,我々のモデルと他のフィードフォワード・イメージ・ツー・メッシュモデルを実証的に統合し,再構築時間の95%削減を図った。
提案手法のスケーラビリティは高速な3次元再構成をさらに強化する。
より小さなデータセットとバッチサイズで微調整を行った結果,PSNRを3.9倍,ボリュームIoUを0.28倍改善し,実世界の閉鎖的再構成を一般化した。
関連論文リスト
- DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion [50.90541069907167]
閉塞型マルチビュー生成のためのエンドツーエンドフレームワークであるDeOcc-1-to-3を提案する。
私たちの自己教師型トレーニングパイプラインは、隠蔽されたイメージペアと擬似地上構造ビューを活用して、モデル構造を意識した補完とビュー整合性を教える。
論文 参考訳(メタデータ) (2025-06-26T17:58:26Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - MA-NeRF: Motion-Assisted Neural Radiance Fields for Face Synthesis from
Sparse Images [21.811067296567252]
本研究では,高忠実度乾燥可能な顔アバターを再構成し,目に見えない表情を処理できる新しいフレームワークを提案する。
実装の核となるのは、構造化変位特徴と意味認識学習モジュールです。
我々の手法は現在の最先端技術よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2023-06-17T13:49:56Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - ProbNVS: Fast Novel View Synthesis with Learned Probability-Guided
Sampling [42.37704606186928]
本稿では,MVSの事前学習に基づいて,新しいビュー合成フレームワークを構築することを提案する。
本手法は,最先端のベースラインに比べて15~40倍高速なレンダリングを実現する。
論文 参考訳(メタデータ) (2022-04-07T14:45:42Z) - Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。