論文の概要: SIM-Net: A Multimodal Fusion Network Using Inferred 3D Object Shape Point Clouds from RGB Images for 2D Classification
- arxiv url: http://arxiv.org/abs/2506.18683v1
- Date: Mon, 23 Jun 2025 14:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.022929
- Title: SIM-Net: A Multimodal Fusion Network Using Inferred 3D Object Shape Point Clouds from RGB Images for 2D Classification
- Title(参考訳): SIM-Net:2次元分類のためのRGB画像からの推定3次元物体形状点雲を用いたマルチモーダル融合ネットワーク
- Authors: Youcef Sklab, Hanane Ariouat, Eric Chenin, Edi Prifti, Jean-Daniel Zucker,
- Abstract要約: Shape-Image Multimodal Network (SIM-Net)は、RGB画像から推定される3Dポイントクラウド表現を統合する新しい2D画像分類アーキテクチャである。
SIM-Net は ResNet101 を一貫して上回り、9.9% の精度、12.3% のFスコアを達成している。
- 参考スコア(独自算出の注目度): 0.5941919160409145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the Shape-Image Multimodal Network (SIM-Net), a novel 2D image classification architecture that integrates 3D point cloud representations inferred directly from RGB images. Our key contribution lies in a pixel-to-point transformation that converts 2D object masks into 3D point clouds, enabling the fusion of texture-based and geometric features for enhanced classification performance. SIM-Net is particularly well-suited for the classification of digitized herbarium specimens (a task made challenging by heterogeneous backgrounds), non-plant elements, and occlusions that compromise conventional image-based models. To address these issues, SIM-Net employs a segmentation-based preprocessing step to extract object masks prior to 3D point cloud generation. The architecture comprises a CNN encoder for 2D image features and a PointNet-based encoder for geometric features, which are fused into a unified latent space. Experimental evaluations on herbarium datasets demonstrate that SIM-Net consistently outperforms ResNet101, achieving gains of up to 9.9% in accuracy and 12.3% in F-score. It also surpasses several transformer-based state-of-the-art architectures, highlighting the benefits of incorporating 3D structural reasoning into 2D image classification tasks.
- Abstract(参考訳): RGB画像から直接推定される3Dポイントクラウド表現を統合する新しい2次元画像分類アーキテクチャであるShape-Image Multimodal Network (SIM-Net)を紹介する。
我々の重要な貢献は、2Dオブジェクトマスクを3Dポイントクラウドに変換するピクセル・ツー・ポイント変換であり、テクスチャベースの幾何学的特徴の融合により分類性能が向上する。
SIM-Netは、デジタル化されたハーバリウム標本(異種背景によって挑戦されるタスク)、非植物要素、および従来の画像ベースモデルに侵入するオクルージョンの分類に特に適している。
これらの問題に対処するため、SIM-Netは3Dポイントクラウド生成の前にオブジェクトマスクを抽出するためにセグメンテーションベースの前処理ステップを採用している。
このアーキテクチャは、2次元画像特徴のためのCNNエンコーダと、幾何学的特徴のためのPointNetベースのエンコーダと、一体化された潜在空間に融合する。
ハーバリウムデータセットに関する実験的評価では、SIM-Netは ResNet101 を一貫して上回り、9.9%の精度、12.3%のFスコアを達成している。
また、トランスフォーマーベースの最先端アーキテクチャを超越し、3D構造推論を2D画像分類タスクに組み込むことの利点を強調している。
関連論文リスト
- SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Pixel-Aligned Non-parametric Hand Mesh Reconstruction [16.62199923065314]
非パラメトリックメッシュ再構成は、最近3Dの手と身体の応用において顕著な進歩を見せている。
本稿では,このマッピングをシンプルでコンパクトなアーキテクチャで構築し,活用することを目的とする。
3つのフェーズからなるハンドメッシュリカバリタスクのためのエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-10-17T15:53:18Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。