Fugu-MT 論文翻訳(概要): MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

論文の概要: MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

arxiv url: http://arxiv.org/abs/2412.11457v1
Date: Mon, 16 Dec 2024 05:23:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.212676
Title: MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes
Title（参考訳）: MOVIS:屋内シーンのためのマルチオブジェクト新規ビュー合成の強化
Authors: Ruijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang,
Abstract要約: MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。合成画像の可視性を評価するために,クロスビューの一貫性と新しいビューオブジェクト配置を評価する。
参考スコア（独自算出の注目度）: 35.16430027877207
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Repurposing pre-trained diffusion models has been proven to be effective for NVS. However, these methods are mostly limited to a single object; directly applying such methods to compositional multi-object scenarios yields inferior results, especially incorrect object placement and inconsistent shape and appearance under novel views. How to enhance and systematically evaluate the cross-view consistency of such models remains under-explored. To address this issue, we propose MOVIS to enhance the structural awareness of the view-conditioned diffusion model for multi-object NVS in terms of model inputs, auxiliary tasks, and training strategy. First, we inject structure-aware features, including depth and object mask, into the denoising U-Net to enhance the model's comprehension of object instances and their spatial relationships. Second, we introduce an auxiliary task requiring the model to simultaneously predict novel view object masks, further improving the model's capability in differentiating and placing objects. Finally, we conduct an in-depth analysis of the diffusion sampling process and carefully devise a structure-guided timestep sampling scheduler during training, which balances the learning of global object placement and fine-grained detail recovery. To systematically evaluate the plausibility of synthesized images, we propose to assess cross-view consistency and novel view object placement alongside existing image-level NVS metrics. Extensive experiments on challenging synthetic and realistic datasets demonstrate that our method exhibits strong generalization capabilities and produces consistent novel view synthesis, highlighting its potential to guide future 3D-aware multi-object NVS tasks.
Abstract（参考訳）: 事前学習した拡散モデルの再利用はNVSに有効であることが証明されている。しかし、これらの手法は主に単一の対象に限られており、構成的多目的シナリオに直接適用することで、特に不正確な対象配置や、新しい視点下での不整合な形状や外観など、劣った結果が得られる。このようなモデルの横断的な一貫性をいかに拡張し、体系的に評価するかは、未検討のままである。そこで本研究では,モデル入力,補助タスク,トレーニング戦略の観点から,多目的NVSのためのビュー条件拡散モデルの構造意識を高めるためのMOVISを提案する。まず、モデルがオブジェクトのインスタンスとそれらの空間的関係を理解できるように、奥行きやオブジェクトマスクなどの構造認識機能をデノイングU-Netに注入する。第2に、新しいビューオブジェクトマスクを同時に予測するために必要な補助タスクを導入し、オブジェクトの識別と配置におけるモデルの能力をさらに向上させる。最後に, 拡散サンプリングプロセスの詳細な解析を行い, 大域的物体配置の学習と細かな詳細回復のバランスを保ちながら, トレーニング中の構造誘導型タイムステップサンプリングスケジューラを慎重に設計する。合成画像の妥当性を体系的に評価するために,既存の画像レベルのNVSメトリクスと並行して,クロスビュー整合性および新しいビューオブジェクト配置を評価することを提案する。難解な合成および現実的なデータセットに関する大規模な実験により,本手法は強力な一般化能力を示し,一貫した新規なビュー合成を実現し,将来の3D対応マルチオブジェクトNVSタスクを導く可能性を強調した。

関連論文リスト

Novel View Synthesis with Pixel-Space Diffusion Models [4.844800099745365]
新規ビュー合成(NVS)に遺伝子モデルがますます採用されている画素空間における終端NVSに対して,現代的な拡散モデルアーキテクチャを適用した。単視点データセットを利用した新しいNVSトレーニングスキームを導入し,その相対的多元性に着目した。
論文参考訳（メタデータ） (2024-11-12T12:58:33Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文参考訳（メタデータ） (2024-01-25T18:57:36Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文参考訳（メタデータ） (2023-12-07T14:55:13Z)
MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-12-13T19:30:03Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文参考訳（メタデータ） (2021-11-24T16:10:46Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文参考訳（メタデータ） (2021-03-30T17:57:01Z)
Unsupervised Video Decomposition using Spatio-temporal Iterative Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。色情報のないモデルでも精度が高いことを示す。本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-06-25T22:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。