論文の概要: MOSAIC: Generating Consistent, Privacy-Preserving Scenes from Multiple Depth Views in Multi-Room Environments
- arxiv url: http://arxiv.org/abs/2503.13816v2
- Date: Mon, 24 Mar 2025 04:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 11:09:52.272612
- Title: MOSAIC: Generating Consistent, Privacy-Preserving Scenes from Multiple Depth Views in Multi-Room Environments
- Title(参考訳): MOSAIC:マルチルーム環境における複数奥行きからの一貫性・プライバシー保護シーンの生成
- Authors: Zhixuan Liu, Haokun Zhu, Rui Chen, Jonathan Francis, Soonmin Hwang, Ji Zhang, Jean Oh,
- Abstract要約: 奥行き画像のみから多室屋内環境のプライバシ保存型デジタル双対を生成するための,拡散に基づく新しいアプローチを提案する。
我々のアプローチの中心は、新しいMOSAIC(Multi-view Overlapped Scene Alignment with Implicit Consistency)モデルである。
実験により、MOSAICは複雑なマルチルーム環境の再構築において、画像の忠実度測定における最先端のベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 18.093508273042392
- License:
- Abstract: We introduce a novel diffusion-based approach for generating privacy-preserving digital twins of multi-room indoor environments from depth images only. Central to our approach is a novel Multi-view Overlapped Scene Alignment with Implicit Consistency (MOSAIC) model that explicitly considers cross-view dependencies within the same scene in the probabilistic sense. MOSAIC operates through a novel inference-time optimization that avoids error accumulation common in sequential or single-room constraint in panorama-based approaches. MOSAIC scales to complex scenes with zero extra training and provably reduces the variance during denoising processes when more overlapping views are added, leading to improved generation quality. Experiments show that MOSAIC outperforms state-of-the-art baselines on image fidelity metrics in reconstructing complex multi-room environments. Project page is available at: https://mosaic-cmubig.github.io
- Abstract(参考訳): 奥行き画像のみから多室屋内環境のプライバシ保存型デジタル双生児を生成するための新しい拡散型アプローチを提案する。
我々のアプローチの中心は、確率論的意味において同じシーン内でクロスビュー依存関係を明示的に考慮する、新しいMOSAIC(Multi-view Overlapped Scene Alignment with Implicit Consistency)モデルである。
MOSAICは、パノラマベースのアプローチにおいて、シーケンシャルまたはシングルルームの制約で共通するエラーの蓄積を回避する新しい推論時間最適化を運用している。
MOSAICは、余分なトレーニングをゼロにして複雑なシーンにスケールし、より多くのオーバーラップビューを追加すると、デノナイズプロセスのばらつきを確実に低減し、生成品質が向上する。
実験により、MOSAICは複雑なマルチルーム環境の再構築において、画像の忠実度測定における最先端のベースラインよりも優れていることが示された。
プロジェクトページは、https://mosaic-cmubig.github.io.comで公開されている。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。