論文の概要: From Gallery to Wrist: Realistic 3D Bracelet Insertion in Videos
- arxiv url: http://arxiv.org/abs/2507.20331v2
- Date: Tue, 29 Jul 2025 03:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.853416
- Title: From Gallery to Wrist: Realistic 3D Bracelet Insertion in Videos
- Title(参考訳): リアルな3Dブレスレット(動画)
- Authors: Chenjian Gao, Lihe Ding, Rui Han, Zhanpeng Huang, Zibin Wang, Tianfan Xue,
- Abstract要約: 2次元拡散モデルは、フォトリアリスティックな編集を作成することを約束している。
従来の3Dレンダリング手法は空間的・時間的整合性が優れているが、フォトリアリスティック照明を実現するには不十分である。
これは、ビデオオブジェクト挿入のための3次元レンダリングと2次元拡散を相乗化するための最初のアプローチである。
- 参考スコア(独自算出の注目度): 8.444819892052958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inserting 3D objects into videos is a longstanding challenge in computer graphics with applications in augmented reality, virtual try-on, and video composition. Achieving both temporal consistency, or realistic lighting remains difficult, particularly in dynamic scenarios with complex object motion, perspective changes, and varying illumination. While 2D diffusion models have shown promise for producing photorealistic edits, they often struggle with maintaining temporal coherence across frames. Conversely, traditional 3D rendering methods excel in spatial and temporal consistency but fall short in achieving photorealistic lighting. In this work, we propose a hybrid object insertion pipeline that combines the strengths of both paradigms. Specifically, we focus on inserting bracelets into dynamic wrist scenes, leveraging the high temporal consistency of 3D Gaussian Splatting (3DGS) for initial rendering and refining the results using a 2D diffusion-based enhancement model to ensure realistic lighting interactions. Our method introduces a shading-driven pipeline that separates intrinsic object properties (albedo, shading, reflectance) and refines both shading and sRGB images for photorealism. To maintain temporal coherence, we optimize the 3DGS model with multi-frame weighted adjustments. This is the first approach to synergize 3D rendering and 2D diffusion for video object insertion, offering a robust solution for realistic and consistent video editing. Project Page: https://cjeen.github.io/BraceletPaper/
- Abstract(参考訳): 3Dオブジェクトをビデオに挿入することは、拡張現実、バーチャルトライオン、ビデオ合成など、コンピュータグラフィックスにおける長年の課題である。
特に複雑な物体の動き、視点の変化、様々な照明の動的なシナリオでは、時間的一貫性や現実的な照明の達成は依然として困難である。
2次元拡散モデルはフォトリアリスティックな編集の可能性を示してきたが、フレーム間の時間的コヒーレンスを維持することに苦慮することが多い。
逆に、従来の3Dレンダリング手法は空間的・時間的整合性が優れているが、フォトリアリスティック照明を実現するには不十分である。
本研究では,両パラダイムの強度を組み合わせたハイブリッドオブジェクト挿入パイプラインを提案する。
具体的には,動的手首のシーンにブレスレットを挿入し,3Dガウス・スティング(3DGS)の高時間的一貫性を活用して,実写的な照明相互作用を確保するために,2次元拡散に基づく拡張モデルを用いて結果を改善することに焦点を当てた。
本手法では, 固有物体特性(アルベド, シェーディング, 反射率)を分離するシェーディング駆動型パイプラインを導入し, シェーディングとsRGB画像の両方をフォトリアリズムのために洗練する。
時間的コヒーレンスを維持するために,多フレーム重み付けによる3DGSモデルを最適化する。
これは、ビデオオブジェクト挿入のための3Dレンダリングと2D拡散を相乗化するための最初のアプローチであり、リアルで一貫したビデオ編集のための堅牢なソリューションを提供する。
Project Page: https://cjeen.github.io/BraceletPaper/
関連論文リスト
- Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos [71.24593306228145]
本研究では,2次元モデルから層状放射場への運動分割予測を融合させることにより,3次元の動的セグメンテーションを改善することを提案する。
テスト時間の改善によってこの問題に対処し、モデルが特定のフレームに集中できるようにし、データの複雑さを軽減します。
このことは、3D技術が挑戦的で現実的な環境での動的現象に対しても2次元解析を向上できることを証明している。
論文 参考訳(メタデータ) (2025-06-05T19:46:48Z) - MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation [19.46962637673285]
MV-CoLightは2Dおよび3Dシーンで合成される照度一貫性のあるオブジェクトのためのフレームワークである。
2次元画像入力と3次元ガウスシーン表現をシームレスに整列するために、ヒルベルト曲線に基づく写像を用いる。
実験では、標準ベンチマークとデータセット間で、最先端の調和した結果を実証した。
論文 参考訳(メタデータ) (2025-05-27T17:53:02Z) - 3D Object Manipulation in a Single Image using Generative Models [30.241857090353864]
拡散モデルの生成力と正確な幾何学的制御を統合する新しいフレームワークである textbfOMG3D を紹介する。
筆者らのフレームワークはまず2Dオブジェクトを3Dに変換し,幾何学レベルでのユーザ指向の修正やライフライクな動作を可能にする。
注目すべきなのは、これらのステップはすべて、NVIDIA 3090を使って行うことができることだ。
論文 参考訳(メタデータ) (2025-01-22T15:06:30Z) - Real-time 3D-aware Portrait Video Relighting [89.41078798641732]
ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。
我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。
本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
論文 参考訳(メタデータ) (2024-10-24T01:34:11Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware
Image Synthesis [163.96778522283967]
そこで本研究では,シェーディング誘導型生成暗黙モデルを提案する。
正確な3D形状は、異なる照明条件下でリアルなレンダリングをもたらす必要がある。
複数のデータセットに対する実験により,提案手法が光リアルな3次元画像合成を実現することを示す。
論文 参考訳(メタデータ) (2021-10-29T10:53:12Z) - Learning Indoor Inverse Rendering with 3D Spatially-Varying Lighting [149.1673041605155]
1枚の画像からアルベド, 正常, 深さ, 3次元の空間的変化を共同で推定する問題に対処する。
既存のほとんどの方法は、シーンの3D特性を無視して、画像から画像への変換としてタスクを定式化する。
本研究では3次元空間変動照明を定式化する統合学習ベースの逆フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。