Fugu-MT 論文翻訳(概要): ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

論文の概要: ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

arxiv url: http://arxiv.org/abs/2410.08168v1
Date: Thu, 10 Oct 2024 17:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 04:55:58.924659
Title: ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion
Title（参考訳）: ZeroComp: 拡散による画像内在から生成するゼロショットオブジェクト
Authors: Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde,
Abstract要約: ZeroCompは、トレーニング中にペアの複合シーンイメージを必要としない。仮想3Dオブジェクトをシームレスにシーンに統合し、シェーディングを調整してリアルな合成物を作る。
参考スコア（独自算出の注目度）: 13.848899275872448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present ZeroComp, an effective zero-shot 3D object compositing approach that does not require paired composite-scene images during training. Our method leverages ControlNet to condition from intrinsic images and combines it with a Stable Diffusion model to utilize its scene priors, together operating as an effective rendering engine. During training, ZeroComp uses intrinsic images based on geometry, albedo, and masked shading, all without the need for paired images of scenes with and without composite objects. Once trained, it seamlessly integrates virtual 3D objects into scenes, adjusting shading to create realistic composites. We developed a high-quality evaluation dataset and demonstrate that ZeroComp outperforms methods using explicit lighting estimations and generative techniques in quantitative and human perception benchmarks. Additionally, ZeroComp extends to real and outdoor image compositing, even when trained solely on synthetic indoor data, showcasing its effectiveness in image compositing.
Abstract（参考訳）: 実効的なゼロショット3Dオブジェクト合成手法であるZeroCompについて述べる。そこで本手法では,本手法では,CrutNetを固有画像からの条件付きで利用し,Stable Diffusionモデルと組み合わせてシーン先行を有効レンダリングエンジンとして動作させる。トレーニング中、ZeroCompは、幾何学、アルベド、マスクシェーディングに基づく固有の画像を使用する。トレーニングが終わると、仮想3Dオブジェクトをシームレスにシーンに統合し、シェーディングを調整してリアルな合成物を作る。我々は、高品質な評価データセットを開発し、ZeroCompが定量的および人為的知覚ベンチマークにおいて、明示的な照明推定と生成技術を用いた手法より優れていることを示す。さらに、ZeroCompは、合成屋内データのみに訓練された場合でも、実物と屋外の画像合成に拡張され、画像合成におけるその効果を示す。

関連論文リスト

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping [40.288085021667065]
リアルタイムに3次元再構成とポーズ予測を同時に行うZeroGraspを紹介した。我々はGraspNet-1BベンチマークでZeroGraspを実世界のロボット実験で評価した。
論文参考訳（メタデータ） (2025-04-15T04:37:39Z)
Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文参考訳（メタデータ） (2024-03-28T11:12:33Z)
Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文参考訳（メタデータ） (2024-02-26T18:54:15Z)
DiFaReli++: Diffusion Face Relighting with Consistent Cast Shadows [11.566896201650056]
我々は,グローバル照明やキャストシャドウといった課題に対処するため,自然界における単一視点の顔のリライティングに新たなアプローチを導入する。我々は、1つのネットワークパスだけを必要とする単発リライトフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-19T08:03:20Z)
Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文参考訳（メタデータ） (2023-03-20T17:59:50Z)
Learning 3D Photography Videos via Self-supervised Diffusion on Single Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文参考訳（メタデータ） (2023-02-21T16:18:40Z)
ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文参考訳（メタデータ） (2022-12-02T02:15:13Z)
Learning Indoor Inverse Rendering with 3D Spatially-Varying Lighting [149.1673041605155]
1枚の画像からアルベド, 正常, 深さ, 3次元の空間的変化を共同で推定する問題に対処する。既存のほとんどの方法は、シーンの3D特性を無視して、画像から画像への変換としてタスクを定式化する。本研究では3次元空間変動照明を定式化する統合学習ベースの逆フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-13T15:29:03Z)
Realistic Image Synthesis with Configurable 3D Scene Layouts [59.872657806747576]
本稿では,3次元シーンレイアウトに基づくリアルな画像合成手法を提案する。提案手法では, セマンティッククラスラベルを入力として3Dシーンを抽出し, 3Dシーンの描画ネットワークを訓練する。訓練された絵画ネットワークにより、入力された3Dシーンのリアルな外観の画像を描画し、操作することができる。
論文参考訳（メタデータ） (2021-08-23T09:44:56Z)
Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-06-29T12:53:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。