論文の概要: Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
- arxiv url: http://arxiv.org/abs/2512.23705v1
- Date: Mon, 29 Dec 2025 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.622804
- Title: Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
- Title(参考訳): Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
- Authors: Shaocong Xu, Songlin Wei, Qizhe Wei, Zheng Geng, Hong Li, Licheng Shen, Qianpu Sun, Shu Han, Bin Ma, Bohan Li, Chongjie Ye, Yuhang Zheng, Nan Wang, Saining Zhang, Hao Zhao,
- Abstract要約: TransPhy3Dは、Blender/Cyclesで組み立てられた透明なシーンの合成ビデオコーパスである。
我々は,軽量なLoRAアダプタを用いて,深度(および正常値)の動画翻訳を学習する。
結果のモデルであるDKTは、透過性を含む実および合成ビデオベンチマーク上のゼロショットSOTAである。
- 参考スコア(独自算出の注目度): 16.61765374101053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transparent objects remain notoriously hard for perception systems: refraction, reflection and transmission break the assumptions behind stereo, ToF and purely discriminative monocular depth, causing holes and temporally unstable estimates. Our key observation is that modern video diffusion models already synthesize convincing transparent phenomena, suggesting they have internalized the optical rules. We build TransPhy3D, a synthetic video corpus of transparent/reflective scenes: 11k sequences rendered with Blender/Cycles. Scenes are assembled from a curated bank of category-rich static assets and shape-rich procedural assets paired with glass/plastic/metal materials. We render RGB + depth + normals with physically based ray tracing and OptiX denoising. Starting from a large video diffusion model, we learn a video-to-video translator for depth (and normals) via lightweight LoRA adapters. During training we concatenate RGB and (noisy) depth latents in the DiT backbone and co-train on TransPhy3D and existing frame-wise synthetic datasets, yielding temporally consistent predictions for arbitrary-length input videos. The resulting model, DKT, achieves zero-shot SOTA on real and synthetic video benchmarks involving transparency: ClearPose, DREDS (CatKnown/CatNovel), and TransPhy3D-Test. It improves accuracy and temporal consistency over strong image/video baselines, and a normal variant sets the best video normal estimation results on ClearPose. A compact 1.3B version runs at ~0.17 s/frame. Integrated into a grasping stack, DKT's depth boosts success rates across translucent, reflective and diffuse surfaces, outperforming prior estimators. Together, these results support a broader claim: "Diffusion knows transparency." Generative video priors can be repurposed, efficiently and label-free, into robust, temporally coherent perception for challenging real-world manipulation.
- Abstract(参考訳): 屈折、反射、透過は、ステレオ、ToF、純粋に識別可能な単分子深度の背後にある仮定を破り、穴と時間的に不安定な推定を引き起こす。
我々のキーとなる観察は、現代のビデオ拡散モデルは、既に透過的な透明な現象を合成しており、光学規則を内部化したことを示唆している。
TransPhy3Dは、透明で反射的なシーンの合成ビデオコーパスで、Blender/Cyclesでレンダリングされた11kのシークエンスです。
シーンは、カテゴリーリッチな静的資産と、ガラス/プラスチック/金属材料を合わせた形状リッチな手続き資産のキュレートされたバンクから組み立てられる。
RGB + depth + normalsを物理ベースのレイトレーシングとOptiX denoisingでレンダリングします。
大規模なビデオ拡散モデルから、軽量なLoRAアダプタを用いて、深度(および正常度)の動画翻訳を学習する。
トレーニング中、私たちは、DiTバックボーン内のRGBと(ノイズの多い)深度潜伏剤を結合し、TransPhy3Dおよび既存のフレームワイド合成データセットのコトレーニングを行い、任意の長さの入力ビデオに対して時間的に一貫した予測を行う。
結果のモデルであるDKTは、ClearPose、DREDS(CatKnown/CatNovel)、TransPhy3D-Testといった透過性を含むリアルおよび合成ビデオベンチマークでゼロショットSOTAを実現している。
強い画像/ビデオベースラインの精度と時間的一貫性を改善し、通常の変種はClearPoseで最高のビデオ正規推定結果を設定する。
コンパクトバージョン 1.3B は ~0.17 s/frame で動作する。
把握スタックに統合されたDKTの深さは、半透明、反射面、拡散面における成功率を高め、事前推定値よりも優れる。
これらの結果は、"拡散は透明性を知っている"というより広い主張を支持している。
生成ビデオの先行は、実世界の操作に挑戦するための堅牢で時間的に一貫性のある知覚へと、効率よく、ラベル無しで再利用することができる。
関連論文リスト
- Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding [62.69753250254731]
Elastic3Dは、従来の映像を双眼鏡にアップグレードするための、制御可能な直接エンドツーエンドの方法である。
高品質のステレオビデオ出力の鍵は、ガイド付きVAEデコーダである。
論文 参考訳(メタデータ) (2025-12-16T09:46:23Z) - Fix False Transparency by Noise Guided Splatting [4.778060896816705]
3DGSによって再構成された不透明な物体は、しばしば偽の透明な表面を示す。
この問題は、3DGSの不正な最適化に起因している。
我々は表面ガウシアンにより高い不透明度を採用するよう奨励する戦略を提案する。
論文 参考訳(メタデータ) (2025-10-17T15:28:24Z) - StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation [56.226630134878995]
我々は,映像深度推定は画像深度推定の単純な拡張ではないと主張している。
ビデオ深度拡散を伴う静的領域のステレオマッチングを相乗化する2段ビデオ深度推定器であるStereoDiffを紹介する。
論文 参考訳(メタデータ) (2025-06-25T18:35:10Z) - TranSplat: Surface Embedding-guided 3D Gaussian Splatting for Transparent Object Manipulation [10.957451368533302]
TranSplat は透明物体に適した表面埋め込み誘導型3次元ガウス散乱法である。
これらの表面埋め込みと入力されたRGB画像を統合することで、TranSplatは透明な表面の複雑さを効果的に捉えることができる。
論文 参考訳(メタデータ) (2025-02-11T03:43:56Z) - EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis [72.53316783628803]
実時間微分可能な発光専用ボリュームレンダリング法であるExact Volumetric Ellipsoid Rendering (EVER)を提案する。
3D Gaussian Splatting(3DGS)による最近の手法とは異なり、プリミティブベースの表現は正確なボリュームレンダリングを可能にする。
本手法は,3DGSよりもブレンディング問題の方が精度が高く,ビューレンダリングの追従作業も容易であることを示す。
論文 参考訳(メタデータ) (2024-10-02T17:59:09Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - RFTrans: Leveraging Refractive Flow of Transparent Objects for Surface
Normal Estimation and Manipulation [50.10282876199739]
本稿では、透明物体の表面正規化と操作のためのRGB-Dに基づくRFTransを提案する。
RFNetは屈折流、物体マスク、境界を予測し、次いでF2Netは屈折流から表面の正常を推定する。
現実のロボットがタスクをつかむと、成功率は83%となり、屈折流が直接シミュレートから現実への移動を可能にすることが証明される。
論文 参考訳(メタデータ) (2023-11-21T07:19:47Z) - NeRRF: 3D Reconstruction and View Synthesis for Transparent and Specular
Objects with Neural Refractive-Reflective Fields [23.099784003061618]
ニューラル放射場(NeRF)に屈折反射場を導入する
NeRFは直線線を使用し、屈折や反射によって引き起こされる複雑な光路の変化に対処できない。
本稿では,効果的かつ効果的なアンチエイリアスを実現するための仮想コーンスーパーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-09-22T17:59:12Z) - TODE-Trans: Transparent Object Depth Estimation with Transformer [16.928131778902564]
トランスを用いた1つのRGB-D入力からの透明物体深度推定手法を提案する。
きめ細かい機能を強化するため、特徴融合モジュール(FFM)はコヒーレントな予測を支援するように設計されている。
論文 参考訳(メタデータ) (2022-09-18T03:04:01Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。