論文の概要: HyperPointFormer: Multimodal Fusion in 3D Space with Dual-Branch Cross-Attention Transformers
- arxiv url: http://arxiv.org/abs/2505.23206v1
- Date: Thu, 29 May 2025 07:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.74921
- Title: HyperPointFormer: Multimodal Fusion in 3D Space with Dual-Branch Cross-Attention Transformers
- Title(参考訳): HyperPointFormer:デュアルブランチ・クロスアテンション・トランスを用いた3次元空間でのマルチモーダル融合
- Authors: Aldino Rizaldy, Richard Gloaguen, Fabian Ewald Fassnacht, Pedram Ghamisi,
- Abstract要約: マルチモーダルリモートセンシングデータ(スペクトル,ライダー,フォトグラムなど)は,都市景観における土地利用・土地被覆分類の達成に不可欠である。
本稿では,3Dポイントクラウド内のすべてのモダリティを融合する完全3Dベースの手法を提案し,専用のデュアルアテンショントランスモデルを用いる。
以上の結果から, 3次元融合は2次元法と比較して競争力があり, 3次元予測を提供することにより, 柔軟性が向上することが示唆された。
- 参考スコア(独自算出の注目度): 10.24051363232541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal remote sensing data, including spectral and lidar or photogrammetry, is crucial for achieving satisfactory land-use / land-cover classification results in urban scenes. So far, most studies have been conducted in a 2D context. When 3D information is available in the dataset, it is typically integrated with the 2D data by rasterizing the 3D data into 2D formats. Although this method yields satisfactory classification results, it falls short in fully exploiting the potential of 3D data by restricting the model's ability to learn 3D spatial features directly from raw point clouds. Additionally, it limits the generation of 3D predictions, as the dimensionality of the input data has been reduced. In this study, we propose a fully 3D-based method that fuses all modalities within the 3D point cloud and employs a dedicated dual-branch Transformer model to simultaneously learn geometric and spectral features. To enhance the fusion process, we introduce a cross-attention-based mechanism that fully operates on 3D points, effectively integrating features from various modalities across multiple scales. The purpose of cross-attention is to allow one modality to assess the importance of another by weighing the relevant features. We evaluated our method by comparing it against both 3D and 2D methods using the 2018 IEEE GRSS Data Fusion Contest (DFC2018) dataset. Our findings indicate that 3D fusion delivers competitive results compared to 2D methods and offers more flexibility by providing 3D predictions. These predictions can be projected onto 2D maps, a capability that is not feasible in reverse. Additionally, we evaluated our method on different datasets, specifically the ISPRS Vaihingen 3D and the IEEE 2019 Data Fusion Contest. Our code will be published here: https://github.com/aldinorizaldy/hyperpointformer.
- Abstract(参考訳): マルチモーダルリモートセンシングデータ(スペクトル,ライダー,フォトグラムなど)は,都市景観における土地利用・土地被覆分類の達成に不可欠である。
これまでのところ、ほとんどの研究は2Dの文脈で行われてきた。
データセットで3D情報が利用できる場合、通常は3Dデータを2Dフォーマットにラスタ化することで2Dデータと統合される。
この方法では良好な分類結果が得られるが、生の点雲から直接3次元空間的特徴を学習する能力を制限することで、3Dデータの可能性を完全に活用するには不十分である。
さらに、入力データの次元が減少するにつれて、3次元予測の生成を制限する。
本研究では,3次元点群内の全てのモードを融合させ,幾何学的特徴とスペクトル的特徴を同時に学習する2分岐トランスフォーマモデルを提案する。
核融合プロセスを強化するため、3Dポイントで完全に動作し、複数のスケールにまたがる様々なモードの特徴を効果的に統合するクロスアテンションベースの機構を導入する。
クロスアテンションの目的は、あるモダリティが他のモダリティの重要性を、関連する特徴を測ることによって評価できるようにすることである。
我々は、2018 IEEE GRSS Data Fusion Contest (DFC2018)データセットを用いて、3D法と2D法を比較して評価した。
以上の結果から, 3次元融合は2次元法と比較して競争力があり, 3次元予測を提供することにより, 柔軟性が向上することが示唆された。
これらの予測は2Dマップに投影することができる。
さらに,異なるデータセット,特にISPRS Vaihingen 3DとIEEE 2019 Data Fusion Contestで評価を行った。
私たちのコードは、https://github.com/aldinorizaldy/hyperpointformer.comで公開されます。
関連論文リスト
- xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion [4.878192303432336]
DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。
xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。
提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2025-03-19T09:20:35Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - CMDFusion: Bidirectional Fusion Network with Cross-modality Knowledge
Distillation for LIDAR Semantic Segmentation [44.44327357717908]
2D RGB画像と3D LIDAR点雲は、自動運転車の知覚システムに補完的な知識を提供する。
LIDARセマンティックセグメンテーションタスクのために、いくつかの2Dおよび3D融合法が検討されているが、それらは異なる問題に悩まされている。
本稿では,クロスモーダル知識蒸留(CMDFusion)を用いた双方向核融合ネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T04:24:12Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Simultaneous 3D Object Segmentation and 6-DOF Pose Estimation [0.7252027234425334]
純粋な3次元点雲シーンにおける3次元オブジェクト分割と6-DOFポーズ推定を同時に行う手法を提案する。
提案手法の重要な構成要素は,純3次元点群における3次元オブジェクト分割と6-DOFポーズ推定を同時に予測できるマルチタスクCNNアーキテクチャである。
実験評価のために,Augmented Reality (AR) を用いた2つの最先端3Dオブジェクトデータセット citePLciteTLINEMOD のための拡張トレーニングデータを生成する。
論文 参考訳(メタデータ) (2019-12-27T13:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。