論文の概要: SplAttN: Bridging 2D and 3D with Gaussian Soft Splatting and Attention for Point Cloud Completion
- arxiv url: http://arxiv.org/abs/2605.01466v1
- Date: Sat, 02 May 2026 14:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.787753
- Title: SplAttN: Bridging 2D and 3D with Gaussian Soft Splatting and Attention for Point Cloud Completion
- Title(参考訳): SplAttN: Gassian Soft Splattingによる2Dと3Dのブリッジとポイントクラウド補完の注意
- Authors: Zhaoyang Li, Zhichao You, Tianrui Li,
- Abstract要約: そこで,SplAttNを提案する。このSplAttNは,高密度かつ連続的な画像平面表現を生成するために,ハードプロジェクションをガウス分割に置き換える。
実験の結果,SplAttNはPCNとShapeNet-55/34で最先端の性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 17.124815270085048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although multi-modal learning has advanced point cloud completion, the theoretical mechanisms remain unclear. Recent works attribute success to the connection between modalities, yet we identify that standard hard projection severs this connection: projecting a sparse point cloud onto the image plane yields an extremely sparse support, which hinders visual prior propagation, a failure mode we term Cross-Modal Entropy Collapse. To address this practical limitation, we propose SplAttN, which replaces hard projection with Differentiable Gaussian Splatting to produce a dense, continuous image-plane representation. By reformulating projection as continuous density estimation, SplAttN avoids collapsed sparse support, facilitates gradient flow, and improves cross-modal connection learnability. Extensive experiments show that SplAttN achieves state-of-the-art performance on PCN and ShapeNet-55/34. Crucially, we utilize the real-world KITTI benchmark as a stress test for multi-modal reliance. Counter-factual evaluation reveals that while baselines degenerate into unimodal template retrievers insensitive to visual removal, SplAttN maintains a robust dependency on visual cues, validating that our method establishes an effective cross-modal connection. Code is available at https://github.com/zay002/SplAttN.
- Abstract(参考訳): マルチモーダル学習には先進的な点雲の完成があるが、理論的なメカニズムはいまだ不明である。
画像平面上にスパース点雲を投影すると、非常にスパースなサポートが得られるため、視覚的先行伝搬を阻害し、我々はクロスモーダルエントロピー崩壊(Cross-Modal Entropy Collapse)と呼ぶ。
この現実的な制限に対処するため、SplAttNを提案する。これは、高密度で連続的な画像平面表現を生成するために、ハードプロジェクションを微分可能なガウススプラッティングに置き換える。
射影を連続密度推定として再構成することにより、SplAttNは崩壊したスパースのサポートを回避し、勾配流を容易にし、相互接続学習性を向上させる。
SplAttNはPCNとShapeNet-55/34で最先端の性能を達成した。
重要なことは、実世界のKITTIベンチマークをマルチモーダル依存のためのストレステストとして利用する。
SplAttN は視覚的手がかりに頑健な依存を保ちながら,本手法が効果的なクロスモーダル接続を確立することを実証している。
コードはhttps://github.com/zay002/SplAttN.comで入手できる。
関連論文リスト
- PUFM++: Point Cloud Upsampling via Enhanced Flow Matching [15.738247394527024]
PUFM++は、スパース、ノイズ、部分的な観測から点雲を再構築するための拡張されたフローマッチングフレームワークである。
本稿では,まず,スパース入力から高密度ターゲットへ直進する直進経路の流れを学習し,次にノイズ摂動サンプルを用いて改良し,終端境界分布をよりよく近似する2段階フローマッチング手法を提案する。
合成ベンチマークと実世界のスキャンの実験は、PUFM++がポイントクラウドのアップサンプリングにおいて、新しい最先端の技術を設定していることを示している。
論文 参考訳(メタデータ) (2025-12-24T06:30:42Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Let Images Give You More:Point Cloud Cross-Modal Training for Shape
Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。
ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。
我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文 参考訳(メタデータ) (2022-10-09T09:35:22Z) - Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit
Neural Representation [79.60988242843437]
そこで本研究では,自己監督型および倍率フレキシブルな点雲を同時にアップサンプリングする手法を提案する。
実験結果から, 自己教師あり学習に基づく手法は, 教師あり学習に基づく手法よりも, 競争力や性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-18T07:18:25Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z) - StickyPillars: Robust and Efficient Feature Matching on Point Clouds
using Graph Neural Networks [16.940377259203284]
StickyPillarsは、ポイントクラウド上の高速で正確で、非常に堅牢な3D機能マッチング方法である。
KITTIデータセット上で実証された登録問題に対して,最先端技術による精度評価結果を示す。
我々はマッチングシステムをLiDARオドメトリーパイプラインに統合し、KITTIデータセット上で最も正確な結果を得る。
論文 参考訳(メタデータ) (2020-02-10T17:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。