論文の概要: I2PRef: Image-Driven Point Completion with Iterative Refinement
- arxiv url: http://arxiv.org/abs/2605.26914v2
- Date: Tue, 02 Jun 2026 09:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.071033
- Title: I2PRef: Image-Driven Point Completion with Iterative Refinement
- Title(参考訳): I2PRef:イテレーティブリファインメントによるイメージ駆動ポイント補完
- Authors: Azhar Hussian, Marina Ritthaler, André Kaup, Vasileios Belagiannis,
- Abstract要約: Image-to-Point (I2P)モジュールは、単一のRGBイメージから直接完全な点雲を再構成する。
トランスフォーマーベースのポイント・ツー・ポイント(P2P)精製モジュールは、粗いI2P出力を反復的に洗練する。
ShapeNet-ViPCの実験は、最先端の完成性能を示す。
- 参考スコア(独自算出の注目度): 28.51111084845334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an image-conditioned point cloud completion approach that treats images as the primary geometric source rather than a secondary guide. To this end, we introduce an Image-to-Point (I2P) module that can reconstruct complete point clouds directly from a single RGB image, with no need for 3D inputs. Additionally, we introduce a transformer-based Point-to-Point (P2P) refinement module that uses self- and cross-attention between point tokens and image features to iteratively refine the coarse I2P output. The I2P module enables the image encoder to learn rich geometric representations, while the P2P module progressively recovers fine-grained details. Unlike existing multimodal methods that rely on auxiliary losses or fusion modules, our explicit I2P task provides a strong, geometry-aware prior based on images alone. Extensive experiments on ShapeNet-ViPC demonstrate state-of-the-art completion performance with a 12.3% relative Chamfer Distance improvement over prior methods. Code is available at: https://github.com/AzharSindhi/I2PRef.git
- Abstract(参考訳): 本稿では,イメージを二次ガイドではなく一次幾何学的情報源として扱う,画像条件のポイントクラウド補完手法を提案する。
この目的のために,1枚のRGB画像から直接全点雲を再構成できるイメージ・ツー・ポイント(I2P)モジュールを導入した。
さらに,変換器をベースとしたポイント・ツー・ポイント(P2P)リファインメントモジュールを導入し,ポイントトークンと画像特徴の自己・相互アテンションを用いて粗いI2P出力を反復的に洗練する。
I2Pモジュールは画像エンコーダでリッチな幾何学的表現を学習し、P2Pモジュールは細かな詳細を徐々に復元する。
補助的損失や融合モジュールに依存する既存のマルチモーダル手法とは異なり、我々の明示的なI2Pタスクは画像のみに基づく強力な幾何学的認識を提供する。
ShapeNet-ViPCの広範囲な実験では、従来の方法よりも12.3%の相対的なチャンファー距離改善による最先端の完成性能が実証された。
コードは、https://github.com/AzharSindhi/I2PRef.gitで入手できる。
関連論文リスト
- GLASS: Geometry-aware Local Alignment and Structure Synchronization Network for 2D-3D Registration [31.27446797835971]
繰り返しパターンを持つシーンでは、画像には十分な3D構造的手がかりや点雲とのアライメントが欠如しており、不正確な一致につながっている。
本稿では,局所幾何拡張(LGE)モジュールとグラフ分散一貫性(GDC)モジュールの2つの新しいモジュールを提案する。
提案手法は,イメージ・ツー・ポイント・クラウド登録における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-27T10:30:40Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud Registration [9.57539651520755]
CoFiI2Pは、粗い方法で通信を抽出する新しいI2P登録ネットワークである。
粗いマッチングフェーズでは、均一なグローバル情報と不均一なグローバル情報の両方をキャプチャするために、新しいI2Pトランスフォーマーモジュールが使用される。
微細マッチングモジュールにおいて、スーパーポイント/スーパーピクセル対応のガイダンスにより、ポイント/ピクセル対を確立する。
論文 参考訳(メタデータ) (2023-09-26T04:32:38Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - Variational Relational Point Completion Network for Robust 3D
Classification [59.80993960827833]
可変点雲補完法は、局所的な詳細を欠くため、大域的な形状の骨格を生成する傾向がある。
本稿では2つの魅力的な特性を持つ変分フレームワークであるポイントコンプリートネットワーク(VRCNet)を提案する。
VRCNetは、現実世界のポイントクラウドスキャンにおいて、非常に一般化性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-04-18T17:03:20Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。