論文の概要: Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
- arxiv url: http://arxiv.org/abs/2512.23705v1
- Date: Mon, 29 Dec 2025 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.622804
- Title: Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
- Title(参考訳): Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
- Authors: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao,
- Abstract要約: TransPhy3Dは、Blender/Cyclesで組み立てられた透明なシーンの合成ビデオコーパスである。
我々は,軽量なLoRAアダプタを用いて,深度(および正常値)の動画翻訳を学習する。
結果のモデルであるDKTは、透過性を含む実および合成ビデオベンチマーク上のゼロショットSOTAである。
- 参考スコア(独自算出の注目度): 16.61765374101053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.
- Abstract(参考訳): 屈折、反射、透過は、ステレオ、ToF、純粋に識別可能な単分子深度の背後にある仮定を破り、穴と時間的に不安定な推定を引き起こす。
我々のキーとなる観察は、現代のビデオ拡散モデルは、既に透過的な透明な現象を合成しており、光学規則を内部化したことを示唆している。
TransPhy3Dは、透明で反射的なシーンの合成ビデオコーパスで、Blender/Cyclesでレンダリングされた11kのシークエンスです。
シーンは、カテゴリーリッチな静的資産と、ガラス/プラスチック/金属材料を合わせた形状リッチな手続き資産のキュレートされたバンクから組み立てられる。
RGB + depth + normalsを物理ベースのレイトレーシングとOptiX denoisingでレンダリングします。
大規模なビデオ拡散モデルから、軽量なLoRAアダプタを用いて、深度(および正常度)の動画翻訳を学習する。
トレーニング中、私たちは、DiTバックボーン内のRGBと(ノイズの多い)深度潜伏剤を結合し、TransPhy3Dおよび既存のフレームワイド合成データセットのコトレーニングを行い、任意の長さの入力ビデオに対して時間的に一貫した予測を行う。
結果のモデルであるDKTは、ClearPose、DREDS(CatKnown/CatNovel)、TransPhy3D-Testといった透過性を含むリアルおよび合成ビデオベンチマークでゼロショットSOTAを実現している。
強い画像/ビデオベースラインの精度と時間的一貫性を改善し、通常の変種はClearPoseで最高のビデオ正規推定結果を設定する。
コンパクトバージョン 1.3B は ~0.17 s/frame で動作する。
把握スタックに統合されたDKTの深さは、半透明、反射面、拡散面における成功率を高め、事前推定値よりも優れる。
これらの結果は、"拡散は透明性を知っている"というより広い主張を支持している。
生成ビデオの先行は、実世界の操作に挑戦するための堅牢で時間的に一貫性のある知覚へと、効率よく、ラベル無しで再利用することができる。
関連論文リスト
- Fix False Transparency by Noise Guided Splatting [4.778060896816705]
3DGSによって再構成された不透明な物体は、しばしば偽の透明な表面を示す。
この問題は、3DGSの不正な最適化に起因している。
我々は表面ガウシアンにより高い不透明度を採用するよう奨励する戦略を提案する。
論文 参考訳(メタデータ) (2025-10-17T15:28:24Z) - TranSplat: Surface Embedding-guided 3D Gaussian Splatting for Transparent Object Manipulation [10.957451368533302]
TranSplat は透明物体に適した表面埋め込み誘導型3次元ガウス散乱法である。
これらの表面埋め込みと入力されたRGB画像を統合することで、TranSplatは透明な表面の複雑さを効果的に捉えることができる。
論文 参考訳(メタデータ) (2025-02-11T03:43:56Z) - EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis [72.53316783628803]
実時間微分可能な発光専用ボリュームレンダリング法であるExact Volumetric Ellipsoid Rendering (EVER)を提案する。
3D Gaussian Splatting(3DGS)による最近の手法とは異なり、プリミティブベースの表現は正確なボリュームレンダリングを可能にする。
本手法は,3DGSよりもブレンディング問題の方が精度が高く,ビューレンダリングの追従作業も容易であることを示す。
論文 参考訳(メタデータ) (2024-10-02T17:59:09Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - NeRRF: 3D Reconstruction and View Synthesis for Transparent and Specular
Objects with Neural Refractive-Reflective Fields [23.099784003061618]
ニューラル放射場(NeRF)に屈折反射場を導入する
NeRFは直線線を使用し、屈折や反射によって引き起こされる複雑な光路の変化に対処できない。
本稿では,効果的かつ効果的なアンチエイリアスを実現するための仮想コーンスーパーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-09-22T17:59:12Z) - TODE-Trans: Transparent Object Depth Estimation with Transformer [16.928131778902564]
トランスを用いた1つのRGB-D入力からの透明物体深度推定手法を提案する。
きめ細かい機能を強化するため、特徴融合モジュール(FFM)はコヒーレントな予測を支援するように設計されている。
論文 参考訳(メタデータ) (2022-09-18T03:04:01Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。