論文の概要: TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing
- arxiv url: http://arxiv.org/abs/2509.18743v1
- Date: Tue, 23 Sep 2025 07:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.75081
- Title: TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing
- Title(参考訳): TriFusion-AE:ロバストポイントクラウド処理のための言語ガイド深度とLiDAR融合
- Authors: Susmit Neogi,
- Abstract要約: オートエンコーダは、デノナイズと再構築のための自然なフレームワークを提供するが、そのパフォーマンスは、現実の困難な条件下で低下する。
テキスト先行情報と多視点画像からの単眼深度マップとLiDAR点雲を統合し,ロバスト性を向上させるクロスアテンションオートエンコーダであるTriFusion-AEを提案する。
このモデルは,CNNベースのオートエンコーダが崩壊する強敵攻撃と重騒音下で,より堅牢な再構築を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LiDAR-based perception is central to autonomous driving and robotics, yet raw point clouds remain highly vulnerable to noise, occlusion, and adversarial corruptions. Autoencoders offer a natural framework for denoising and reconstruction, but their performance degrades under challenging real-world conditions. In this work, we propose TriFusion-AE, a multimodal cross-attention autoencoder that integrates textual priors, monocular depth maps from multi-view images, and LiDAR point clouds to improve robustness. By aligning semantic cues from text, geometric (depth) features from images, and spatial structure from LiDAR, TriFusion-AE learns representations that are resilient to stochastic noise and adversarial perturbations. Interestingly, while showing limited gains under mild perturbations, our model achieves significantly more robust reconstruction under strong adversarial attacks and heavy noise, where CNN-based autoencoders collapse. We evaluate on the nuScenes-mini dataset to reflect realistic low-data deployment scenarios. Our multimodal fusion framework is designed to be model-agnostic, enabling seamless integration with any CNN-based point cloud autoencoder for joint representation learning.
- Abstract(参考訳): LiDARをベースとした認識は、自律走行とロボット工学の中心であるが、生の点雲はノイズ、閉塞、敵の腐敗に対して非常に脆弱である。
オートエンコーダは、デノナイズと再構築のための自然なフレームワークを提供するが、そのパフォーマンスは、現実の困難な条件下で低下する。
本研究では,多視点画像からの単眼深度マップとLiDAR点雲を統合し,ロバスト性を向上させるマルチモーダル・クロスアテンション・オートエンコーダであるTriFusion-AEを提案する。
テキストからのセマンティックキュー、画像からの幾何学的(奥行き)特徴、LiDARからの空間構造を整列させることで、TriFusion-AEは確率的雑音や対向的摂動に耐性のある表現を学習する。
興味深いことに、弱い摂動下での利得は限られているが、我々のモデルは、CNNベースのオートエンコーダが崩壊する強敵攻撃と重騒音の下で、はるかに頑健な再構築を実現している。
我々はnuScenes-miniデータセットを評価し、現実的な低データ展開シナリオを反映する。
我々のマルチモーダル融合フレームワークはモデルに依存しないように設計されており、共同表現学習のための任意のCNNベースのポイントクラウドオートエンコーダとシームレスに統合できる。
関連論文リスト
- R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections [9.633163304379861]
R3GSは、制約のないデータセットに適した堅牢な再構築と再ローカライゼーションフレームワークである。
過渡的物体の復元過程に対する悪影響を軽減するため,軽量な人検出ネットワークを構築した。
本研究では,屋外シーンにおける空域の課題に対処するために,事前の奥行きを制約として組み込んだ効果的なスカイハンドリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-21T09:25:22Z) - Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks [9.578322021478426]
非教師なしドメイン適応(UDA)フレームワークは、クリーンデータ上での3Dポイントクラウドセマンティックセグメンテーションモデルの優れた一般化機能を示している。
本研究では, 点雲面に小さな摂動しか持たないデータセットを著しく汚染できるステルス対向点雲発生攻撃を提案する。
生成されたデータにより、我々はさらに対策としてAdversarial Adaptation Framework(AAF)を開発する。
論文 参考訳(メタデータ) (2025-04-02T12:11:34Z) - RelitLRM: Generative Relightable Radiance for Large Reconstruction Models [52.672706620003765]
本稿では,新しい照明下での3Dオブジェクトの高品質なガウススプレイティング表現を生成するためのRelitLRMを提案する。
複雑なキャプチャと遅い最適化を必要とする従来の逆レンダリングとは異なり、RelitLRMはフィードフォワードトランスフォーマーベースのモデルを採用している。
スパースビューフィードフォワードRelitLRMは、最先端の密集ビュー最適化ベースラインに対して、競争力のあるリライティング結果を提供する。
論文 参考訳(メタデータ) (2024-10-08T17:40:01Z) - Few-shot point cloud reconstruction and denoising via learned Guassian splats renderings and fine-tuned diffusion features [52.62053703535824]
本稿では,少数の画像から点雲を再構成し,そのレンダリングから点雲を識別する手法を提案する。
制約条件下での再構成を改善するため,ハイブリッド表面と外観の相違点のトレーニングを規則化する。
これらの学習したフィルタを使って、3Dの監督なしに来る点雲ノイズを除去する方法を実証する。
論文 参考訳(メタデータ) (2024-04-01T13:38:16Z) - DaRF: Boosting Radiance Fields from Sparse Inputs with Monocular Depth
Adaptation [31.655818586634258]
我々は,少数の実世界の画像を用いて,強靭なNeRF再構成を実現する,D"aRF"と呼ばれる新しいフレームワークを提案する。
我々のフレームワークは、視界と視界の両面において、NeRF表現に先立って、MDEネットワークの強力な幾何学を課している。
さらに、パッチワイドスケールシフトフィッティングと幾何蒸留により、単分子深さのあいまいさを克服する。
論文 参考訳(メタデータ) (2023-05-30T16:46:41Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。