論文の概要: Photorealistic Phantom Roads in Real Scenes: Disentangling 3D Hallucinations from Physical Geometry
- arxiv url: http://arxiv.org/abs/2512.15423v1
- Date: Wed, 17 Dec 2025 13:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.999512
- Title: Photorealistic Phantom Roads in Real Scenes: Disentangling 3D Hallucinations from Physical Geometry
- Title(参考訳): リアルシーンにおけるフォトリアリスティックなファントムロード:物理幾何学から3次元幻覚を遠ざける
- Authors: Hoang Nguyen, Xiaohao Xu, Xiaonan Huang,
- Abstract要約: 本稿では、この不確実な安全性リスクを調査、定量化、テーム化する、エンドツーエンドのフレームワークを初めて紹介する。
提案する3D-Mirageは,正確な平面領域アノテーションと文脈制限作物を用いた実世界のイリュージョンの最初のベンチマークである。
そこで本稿では,非平面性向上のためのDefiation Composite Score (DCS) と文脈不安定性評価のためのConfusion Composite Score (CCS) の2つの指標を用いたラプラシアン評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.571800971505787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth foundation models achieve remarkable generalization by learning large-scale semantic priors, but this creates a critical vulnerability: they hallucinate illusory 3D structures from geometrically planar but perceptually ambiguous inputs. We term this failure the 3D Mirage. This paper introduces the first end-to-end framework to probe, quantify, and tame this unquantified safety risk. To probe, we present 3D-Mirage, the first benchmark of real-world illusions (e.g., street art) with precise planar-region annotations and context-restricted crops. To quantify, we propose a Laplacian-based evaluation framework with two metrics: the Deviation Composite Score (DCS) for spurious non-planarity and the Confusion Composite Score (CCS) for contextual instability. To tame this failure, we introduce Grounded Self-Distillation, a parameter-efficient strategy that surgically enforces planarity on illusion ROIs while using a frozen teacher to preserve background knowledge, thus avoiding catastrophic forgetting. Our work provides the essential tools to diagnose and mitigate this phenomenon, urging a necessary shift in MDE evaluation from pixel-wise accuracy to structural and contextual robustness. Our code and benchmark will be publicly available to foster this exciting research direction.
- Abstract(参考訳): 単眼深度基礎モデルは、大規模セマンティック先行の学習によって顕著な一般化を実現するが、これは重要な脆弱性を生み出し、幾何学的に平面的だが知覚的に曖昧な入力から、照明的な3D構造を幻覚させる。
この失敗を3Dミラージュと呼ぶ。
本稿では、この不適切な安全リスクを調査し、定量化し、テームする最初のエンドツーエンドフレームワークを紹介する。
提案する3D-Mirageは実世界のイリュージョン(例えばストリートアート)の最初のベンチマークで、正確な平面領域アノテーションと文脈制限作物を提示する。
そこで本稿では,非平面性向上のためのDefiation Composite Score (DCS) と文脈不安定性評価のためのConfusion Composite Score (CCS) の2つの指標を用いたラプラシアン評価フレームワークを提案する。
この失敗に対処するために,凍結教師を用いて背景知識を保存し,破滅的な忘れを回避しつつ,錯覚ROIの平面性を外科的に強制するパラメータ効率の戦略であるグラウンドド・セルフ蒸留を導入する。
我々の研究は、この現象の診断と緩和に欠かせないツールを提供し、MDEの評価をピクセル単位の精度から構造的・文脈的堅牢性へと、必要な変化を促す。
私たちのコードとベンチマークは、このエキサイティングな研究の方向性を促進するために公開されます。
関連論文リスト
- StableGS: A Floater-Free Framework for 3D Gaussian Splatting [9.935869165752283]
3D Gaussian Splatting(3DGS)の復元は、その幾何学的および視覚的忠実さを低下させるスタバボーンフローター(stbborn floater)のアーティファクトに悩まされている。
最終的な外観レンダリングから幾何正規化を分離する新しいフレームワークであるStableGSを提案する。
複数のベンチマークの実験では、StableGSはフローターを除去するだけでなく、一般的なぼやけたアーチファクトのトレードオフも解決している。
論文 参考訳(メタデータ) (2025-03-24T09:02:51Z) - Learning A Zero-shot Occupancy Network from Vision Foundation Models via Self-supervised Adaptation [41.98740330990215]
本研究は,2次元視覚基礎モデルと3次元タスクをブリッジする新しい手法を提案する。
視覚言語モデルのゼロショット機能を画像意味論に活用する。
我々は、再構成されたメートル法深度を用いて意味を3次元空間に投影し、3次元の監視を行う。
論文 参考訳(メタデータ) (2025-03-10T09:54:40Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Toward Availability Attacks in 3D Point Clouds [28.496421433836908]
距離正規化による2次元アベイラビリティーアタックを3次元点群に直接適用することは, 縮退の影響を受けやすいことを示す。
特徴空間に新たなショートカットを生成するFC-EM(Feature Collision Error-Minimization)法を提案する。
典型的なポイントクラウドデータセット,3次元頭蓋内動脈瘤医療データセット,および3次元顔データセットを用いて,我々のアプローチの優位性と実用性を検証する。
論文 参考訳(メタデータ) (2024-06-26T08:13:30Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。