論文の概要: TransNormal: Dense Visual Semantics for Diffusion-based Transparent Object Normal Estimation
- arxiv url: http://arxiv.org/abs/2602.00839v1
- Date: Sat, 31 Jan 2026 18:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.425551
- Title: TransNormal: Dense Visual Semantics for Diffusion-based Transparent Object Normal Estimation
- Title(参考訳): TransNormal:Dense Visual Semantics for Diffusion-based Transparent Object Normal Estimation
- Authors: Mingwei Li, Hehe Fan, Yi Yang,
- Abstract要約: 単段階の正規回帰に事前学習した拡散前処理を適応させるフレームワークであるTransNormalを提案する。
透明な表面におけるテクスチャの欠如に対処するため、TransNormalはDINOv3から密集した視覚的セマンティクスを統合する。
本稿では,トランスノーマル・シンセティック(TransNormal-Synthetic)について紹介する。
- 参考スコア(独自算出の注目度): 33.16284424429254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular normal estimation for transparent objects is critical for laboratory automation, yet it remains challenging due to complex light refraction and reflection. These optical properties often lead to catastrophic failures in conventional depth and normal sensors, hindering the deployment of embodied AI in scientific environments. We propose TransNormal, a novel framework that adapts pre-trained diffusion priors for single-step normal regression. To handle the lack of texture in transparent surfaces, TransNormal integrates dense visual semantics from DINOv3 via a cross-attention mechanism, providing strong geometric cues. Furthermore, we employ a multi-task learning objective and wavelet-based regularization to ensure the preservation of fine-grained structural details. To support this task, we introduce TransNormal-Synthetic, a physics-based dataset with high-fidelity normal maps for transparent labware. Extensive experiments demonstrate that TransNormal significantly outperforms state-of-the-art methods: on the ClearGrasp benchmark, it reduces mean error by 24.4% and improves 11.25° accuracy by 22.8%; on ClearPose, it achieves a 15.2% reduction in mean error. The code and dataset will be made publicly available at https://longxiang-ai.github.io/TransNormal.
- Abstract(参考訳): 透明物体の単分子的正規推定は、実験室の自動化には不可欠であるが、複雑な光の屈折と反射のために依然として困難である。
これらの光学特性は、しばしば従来の深度と正常なセンサーの破滅的な失敗を招き、科学環境におけるエンボディドAIの展開を妨げる。
単一ステップの正規回帰に事前学習した拡散前処理を適応させる新しいフレームワークであるTransNormalを提案する。
透明な表面におけるテクスチャの欠如に対処するため、TransNormalはDINOv3からの密集した視覚的セマンティクスをクロスアテンション機構を通じて統合し、強力な幾何学的手がかりを提供する。
さらに, マルチタスク学習目標とウェーブレットに基づく正規化を用いて, きめ細かい構造情報の保存を確実にする。
このタスクを支援するために,トランスノーマル合成(TransNormal-Synthetic)を導入した。
ClearGraspベンチマークでは平均誤差を24.4%削減し、11.25°の精度を22.8%改善し、ClearPoseでは平均誤差を15.2%削減した。
コードとデータセットはhttps://longxiang-ai.github.io/TransNormalで公開される。
関連論文リスト
- Fix False Transparency by Noise Guided Splatting [4.778060896816705]
3DGSによって再構成された不透明な物体は、しばしば偽の透明な表面を示す。
この問題は、3DGSの不正な最適化に起因している。
我々は表面ガウシアンにより高い不透明度を採用するよう奨励する戦略を提案する。
論文 参考訳(メタデータ) (2025-10-17T15:28:24Z) - Normality Prior Guided Multi-Semantic Fusion Network for Unsupervised Image Anomaly Detection [7.2755028046583226]
教師なし異常検出のための新しい正規性事前誘導型マルチセマンティックフュージョンネットワークを提案する。
上記のマルチセマンティックな特徴を融合してデコーダへの入力として使用し、異常の復元を近似正規性に導く。
MVTec LOCO ADデータセット上でのSOTA性能は、ピクセルsPROが5.7%、イメージAUROCが2.6%向上している。
論文 参考訳(メタデータ) (2025-06-23T11:54:15Z) - StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal [24.867685510826067]
この研究は、単色入力による高品質表面正規分布推定の課題に対処する。
我々の方法であるStableNormalは、推論分散を減らして拡散過程の室内性を緩和する。
透明で反射性のある表面に対して頑丈で、多くの物体が散らばっている。
論文 参考訳(メタデータ) (2024-06-24T17:59:58Z) - RFTrans: Leveraging Refractive Flow of Transparent Objects for Surface
Normal Estimation and Manipulation [50.10282876199739]
本稿では、透明物体の表面正規化と操作のためのRGB-Dに基づくRFTransを提案する。
RFNetは屈折流、物体マスク、境界を予測し、次いでF2Netは屈折流から表面の正常を推定する。
現実のロボットがタスクをつかむと、成功率は83%となり、屈折流が直接シミュレートから現実への移動を可能にすることが証明される。
論文 参考訳(メタデータ) (2023-11-21T07:19:47Z) - TransFusion -- A Transparency-Based Diffusion Model for Anomaly Detection [2.7855886538423182]
本稿では,2つのデータセットにおける最先端性能を実現する識別異常検出手法を提案する。
TransFusion は VisA と MVTec AD の両方のデータセットで、画像レベルの AUROC はそれぞれ98.5% と 99.2% である。
論文 参考訳(メタデータ) (2023-11-16T16:23:11Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。