論文の概要: MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World
- arxiv url: http://arxiv.org/abs/2504.15397v1
- Date: Mon, 21 Apr 2025 19:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:43:47.09584
- Title: MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World
- Title(参考訳): MirrorVerse: 拡散モデルに現実的に世界を反映させる
- Authors: Ankit Dhiman, Manan Shah, R Venkatesh Babu,
- Abstract要約: 拡散モデルは物理法則に完全に従わないことが多い。
現実世界のパフォーマンスを向上させるために,ミラーフュージョン2.0モデルを開発するための3段階のトレーニングカリキュラムを導入する。
- 参考スコア(独自算出の注目度): 28.104534788009865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have become central to various image editing tasks, yet they often fail to fully adhere to physical laws, particularly with effects like shadows, reflections, and occlusions. In this work, we address the challenge of generating photorealistic mirror reflections using diffusion-based generative models. Despite extensive training data, existing diffusion models frequently overlook the nuanced details crucial to authentic mirror reflections. Recent approaches have attempted to resolve this by creating synhetic datasets and framing reflection generation as an inpainting task; however, they struggle to generalize across different object orientations and positions relative to the mirror. Our method overcomes these limitations by introducing key augmentations into the synthetic data pipeline: (1) random object positioning, (2) randomized rotations, and (3) grounding of objects, significantly enhancing generalization across poses and placements. To further address spatial relationships and occlusions in scenes with multiple objects, we implement a strategy to pair objects during dataset generation, resulting in a dataset robust enough to handle these complex scenarios. Achieving generalization to real-world scenes remains a challenge, so we introduce a three-stage training curriculum to develop the MirrorFusion 2.0 model to improve real-world performance. We provide extensive qualitative and quantitative evaluations to support our approach. The project page is available at: https://mirror-verse.github.io/.
- Abstract(参考訳): 拡散モデルは様々な画像編集タスクの中心となっているが、特に影、反射、閉塞などの効果によって、物理法則に完全に従わないことが多い。
本研究では拡散型生成モデルを用いて光現実的ミラー反射を生成することの課題に対処する。
広範なトレーニングデータにもかかわらず、既存の拡散モデルは、真のミラー反射に不可欠なニュアンスドの詳細をしばしば見落としている。
近年のアプローチでは、合成データセットを作成し、フレーミング反射生成を影響のあるタスクとする手法が試みられているが、鏡に対して異なる物体の向きや位置を一般化することは困難である。
提案手法は,(1)ランダムなオブジェクト位置決め,(2)ランダムな回転,(3)オブジェクトのグラウンド化など,合成データパイプラインにキー拡張を導入することでこれらの制約を克服し,ポーズや配置の一般化を著しく向上させる。
複数のオブジェクトを持つシーンにおける空間的関係や閉塞にさらに対処するために、データセット生成中にオブジェクトをペアリングする戦略を実装し、これらの複雑なシナリオを扱うのに十分なデータセットを実現する。
現実のシーンへの一般化は依然として課題であり,実世界のパフォーマンスを改善するためにミラーフュージョン2.0モデルを開発するための3段階のトレーニングカリキュラムを導入する。
我々は,我々のアプローチを支援するために,広範囲な質的,定量的な評価を行う。
プロジェクトページは、https://mirror-verse.github.io/.com/で公開されている。
関連論文リスト
- From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning [64.7863715647187]
ReflectionFlowは、テキストから画像への拡散モデルを反復的に反映し、出力を洗練できる推論時フレームワークである。
反射レベルのスケーリングを容易にするため、100万個の三重項からなる大規模データセットであるGenRefを構築し、それぞれが反射、欠陥画像、拡張画像を含む。
論文 参考訳(メタデータ) (2025-04-22T17:58:07Z) - Dereflection Any Image with Diffusion Priors and Diversified Data [86.15504914121226]
本稿では、効率的なデータ準備パイプラインと、頑健な反射除去のための一般化可能なモデルを備えた包括的解を提案する。
まず、ターゲットシーンでランダムに回転する反射媒体によって生成された横反射除去(DRR)というデータセットを紹介する。
第2に、決定論的出力と高速推論のための1ステップ拡散を伴う拡散に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T17:48:14Z) - ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections [26.02117310176884]
拡散型生成モデルを用いて、高現実的で可視なミラー反射を生成する問題に取り組む。
現実世界の物体の高品位, リアル, 形状, 外観を意識した反射を生成するミラーフュージョン(MirrorFusion)と呼ばれる新しいディープコンディショニング手法を提案する。
MirrorFusionはSynMirrorの最先端の手法よりも優れており、広範囲な量的および定性的な分析によって示されている。
論文 参考訳(メタデータ) (2024-09-23T02:59:07Z) - MirrorGaussian: Reflecting 3D Gaussians for Reconstructing Mirror Reflections [58.003014868772254]
MirrorGaussian は 3D Gaussian Splatting に基づくリアルタイムレンダリングによるミラーシーン再構築手法である。
本稿では,現実の3Dガウスと鏡面の両面の微分を可能にする直感的なデュアルレンダリング戦略を提案する。
我々の手法は既存の手法よりも優れており、最先端の結果が得られている。
論文 参考訳(メタデータ) (2024-05-20T09:58:03Z) - UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections [87.191742674543]
大規模な複雑なシーンをリフレクションで再構成できる汎用3次元再構成手法UniSDFを提案する。
提案手法は,複雑な大規模シーンを細部と反射面で頑健に再構築し,全体的な性能を向上する。
論文 参考訳(メタデータ) (2023-12-20T18:59:42Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。