論文の概要: Revisiting Shape from Polarization in the Era of Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2603.04817v1
- Date: Thu, 05 Mar 2026 05:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.08112
- Title: Revisiting Shape from Polarization in the Era of Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルにおける偏光からの形状の再検討
- Authors: Chenhao Li, Taishi Ono, Takeshi Uemori, Yusuke Moriuchi,
- Abstract要約: 小さいデータセットでトレーニングされた軽量モデルは、単発物体表面の正常推定において、RGBのみの視覚基盤モデル(VFM)より優れていることを示す。
40Kのトレーニングシーンで,本手法は最先端のSfPアプローチとRGBのみのVFMの両方に優れていた。
- 参考スコア(独自算出の注目度): 11.779432473091754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that, with polarization cues, a lightweight model trained on a small dataset can outperform RGB-only vision foundation models (VFMs) in single-shot object-level surface normal estimation. Shape from polarization (SfP) has long been studied due to the strong physical relationship between polarization and surface geometry. Meanwhile, driven by scaling laws, RGB-only VFMs trained on large datasets have recently achieved impressive performance and surpassed existing SfP methods. This situation raises questions about the necessity of polarization cues, which require specialized hardware and have limited training data. We argue that the weaker performance of prior SfP methods does not come from the polarization modality itself, but from domain gaps. These domain gaps mainly arise from two sources. First, existing synthetic datasets use limited and unrealistic 3D objects, with simple geometry and random texture maps that do not match the underlying shapes. Second, real-world polarization signals are often affected by sensor noise, which is not well modeled during training. To address the first issue, we render a high-quality polarization dataset using 1,954 3D-scanned real-world objects. We further incorporate pretrained DINOv3 priors to improve generalization to unseen objects. To address the second issue, we introduce polarization sensor-aware data augmentation that better reflects real-world conditions. With only 40K training scenes, our method significantly outperforms both state-of-the-art SfP approaches and RGB-only VFMs. Extensive experiments show that polarization cues enable a 33x reduction in training data or an 8x reduction in model parameters, while still achieving better performance than RGB-only counterparts.
- Abstract(参考訳): 偏光キューを用いて、小さなデータセットで訓練された軽量モデルが、単発物体表面の正規分布推定において、RGBのみの視覚基礎モデル(VFM)より優れていることを示す。
偏光からの形状(SfP)は、偏光と表面幾何学の強い物理的関係から長い間研究されてきた。
一方、スケーリング法則により、大規模なデータセットでトレーニングされたRGBのみのVFMは、最近、目覚ましいパフォーマンスを達成し、既存のSfPメソッドを上回りました。
この状況は、特別なハードウェアを必要とし、限られたトレーニングデータを持つ偏極手段の必要性に関する疑問を提起する。
従来のSfP手法の弱い性能は、偏極モード自体からではなく、領域ギャップから来ていると論じる。
これらの領域のギャップは主に2つのソースから生じる。
まず、既存の合成データセットは制限された非現実的な3Dオブジェクトを使用し、基本的な形状と一致しない単純な幾何学とランダムなテクスチャマップを使用する。
第二に、実世界の偏光信号は、しばしば、訓練中にうまくモデル化されていないセンサーノイズの影響を受けます。
最初の問題に対処するために、1,954個の3Dスキャンされた現実世界のオブジェクトを用いて高品質な偏光データセットを描画する。
さらに、未確認オブジェクトへの一般化を改善するために、事前訓練されたDINOv3プリエンプティブを組み込む。
第2の課題に対処するために,実環境をよりよく反映した偏光センサ対応データ拡張を導入する。
40Kのトレーニングシーンで,本手法は最先端のSfPアプローチとRGBのみのVFMの両方に優れていた。
広汎な実験により、偏光キューはトレーニングデータの33倍、モデルパラメータの8倍の削減を可能にする一方で、RGBのみよりも優れたパフォーマンスを実現している。
関連論文リスト
- Shape from Polarization of Thermal Emission and Reflection [2.7317088388886384]
長波長赤外(LWIR)スペクトルにおける偏光の形状(SfP)技術を利用する。
我々は、放射と反射の複合効果を明示的に考慮した偏極モデルを定式化した。
我々はプロトタイプシステムを実装し、LWIR SfPのための最初の実世界のベンチマークデータセットであるThermoPolを開発した。
論文 参考訳(メタデータ) (2025-06-23T00:33:17Z) - GratNet: A Photorealistic Neural Shader for Diffractive Surfaces [0.0]
回折面のデータ駆動レンダリングのための多層パーセプトロン (MLP) を用いた手法を提案する。
我々は,Pak-Signal-to-Noise (PSNR), Structure similarity Index Measure (SSIM) と flipping difference Evaluator (FLIP) を評価指標として,地上構造の高品質な再構築を実証した。
論文 参考訳(メタデータ) (2025-06-18T18:58:00Z) - Polar Coordinate-Based 2D Pose Prior with Neural Distance Field [0.34952465649465553]
ニューラル距離場(NDF)に基づく2次元ポーズ事前誘導補正手法を提案する。
接続長を明示的に組み込んだ極座標に基づく表現を導入し、誤ポーズ推定をより正確に補正する。
提案手法は,複数のポーズ表現にまたがって2次元ポーズ推定を改善する能力を示した長跳びデータセットを用いて評価した。
論文 参考訳(メタデータ) (2025-05-06T11:31:14Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [65.42565481489132]
人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
RGB-D参照から3D/2.5D形状認識と2.5D形状認識を併用した新しい3次元一般化可能な相対ポーズ推定法を提案する。
RGBとセマンティックマップ(DINOv2がRGB入力から取得)によってテクスチャ化された2.5Dの回転可能なメッシュを識別し、新しいRGBとセマンティックマップを新しい回転ビューの下でレンダリングする。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - Learning a 3D Morphable Face Reflectance Model from Low-cost Data [21.37535100469443]
既存の作業では、Light Stageデータを使用して拡散とスペクトルアルベドのためのパラメトリックモデルを構築している。
本稿では,低コストで利用可能なデータのみを用いた空間変化BRDFを用いた最初の3次元顔反射モデルを提案する。
論文 参考訳(メタデータ) (2023-03-21T09:08:30Z) - {\phi}-SfT: Shape-from-Template with a Physics-Based Deformation Model [69.27632025495512]
Shape-from-Template (SfT) 法では、単一の単眼RGBカメラから3次元表面の変形を推定する。
本稿では,物理シミュレーションによる2次元観察を解説する新しいSfT手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T17:59:57Z) - Shape from Polarization for Complex Scenes in the Wild [93.65746187211958]
単一偏光画像からシーンレベルの正規推定を行うために,物理量に基づく新しいデータ駆動手法を提案する。
実世界のシーンレベルのSfPデータセットに、ペア化された入力偏光画像と接地トラス正規地図をコントリビュートする。
我々の訓練されたモデルは、偏光と表面の正常値の関係が距離に影響されないため、遠距離場屋外シーンに一般化することができる。
論文 参考訳(メタデータ) (2021-12-21T17:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。