論文の概要: GridNet-HD: A High-Resolution Multi-Modal Dataset for LiDAR-Image Fusion on Power Line Infrastructure
- arxiv url: http://arxiv.org/abs/2601.13052v1
- Date: Mon, 19 Jan 2026 13:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.916607
- Title: GridNet-HD: A High-Resolution Multi-Modal Dataset for LiDAR-Image Fusion on Power Line Infrastructure
- Title(参考訳): GridNet-HD:電力線インフラ上のLiDAR画像融合のための高分解能マルチモードデータセット
- Authors: Antoine Carreaud, Shanci Li, Malo De Lacour, Digre Frinde, Jan Skaloud, Adrien Gressin,
- Abstract要約: GridNet-HDは、オーバーヘッド電気インフラの3Dセマンティックセマンティックセグメンテーションのためのデータセットである。
データセットは7,694のイメージと25億のポイントを11のクラスに注釈付けしている。
GridNet-HDでは、融合モデルは+5.55 mIoUで最高の単調ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.4793962338847224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents GridNet-HD, a multi-modal dataset for 3D semantic segmentation of overhead electrical infrastructures, pairing high-density LiDAR with high-resolution oblique imagery. The dataset comprises 7,694 images and 2.5 billion points annotated into 11 classes, with predefined splits and mIoU metrics. Unimodal (LiDAR-only, image-only) and multi-modal fusion baselines are provided. On GridNet-HD, fusion models outperform the best unimodal baseline by +5.55 mIoU, highlighting the complementarity of geometry and appearance. As reviewed in Sec. 2, no public dataset jointly provides high-density LiDAR and high-resolution oblique imagery with 3D semantic labels for power-line assets. Dataset, baselines, and codes are available: https://huggingface.co/collections/heig-vd-geo/gridnet-hd.
- Abstract(参考訳): 本稿では,高密度LiDARと高解像度斜め画像のペアリングによる,オーバーヘッド電気インフラの3次元セマンティックセマンティックセマンティックセマンティクスのためのマルチモーダルデータセットGridNet-HDを提案する。
データセットは7,694のイメージと25億のポイントを11のクラスに注釈付けし、事前に定義された分割とmIoUメトリクスを持つ。
ユニモーダル(LiDARのみ、画像のみ)とマルチモーダル融合ベースラインが提供される。
GridNet-HDでは、融合モデルは+5.55 mIoUで最高の単調ベースラインを上回り、幾何学と外観の相補性を強調している。
Sec.2でレビューされたように、高密度のLiDARと高解像度の斜め画像と、電力線資産のための3Dセマンティックラベルを共同で提供するパブリックデータセットはない。
データセット、ベースライン、およびコードは、https://huggingface.co/collections/heig-vd-geo/gridnet-hd.orgで利用可能である。
関連論文リスト
- Collaborative Multi-Modal Coding for High-Quality 3D Generation [48.78065667043986]
基本的マルチモーダルから学習する最初のフィードフォワード3Dネイティブ生成モデルであるTriMMを提案する。
具体的には、TriMMはまず、モダリティ固有の機能を統合する、協調的なマルチモーダルコーディングを導入する。
また、マルチモーダル符号化の堅牢性と性能を高めるために、補助的な2Dおよび3D監視を導入する。
論文 参考訳(メタデータ) (2025-08-21T04:31:14Z) - The P$^3$ dataset: Pixels, Points and Polygons for Multimodal Building Vectorization [9.112162560071937]
P$3$データセットは、ベクトル化を構築するための大規模マルチモーダルベンチマークである。
データセットは100億点以上のLiDAR点を含み、デシメータレベルの精度と、地上サンプリング距離25cmのRGB画像を含んでいる。
論文 参考訳(メタデータ) (2025-05-21T11:16:29Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - MergeOcc: Bridge the Domain Gap between Different LiDARs for Robust Occupancy Prediction [8.993992124170624]
MergeOccは、複数のデータセットを活用することで、異なるLiDARを同時に扱うように開発されている。
MergeOccの有効性は、自動運転車のための2つの顕著なデータセットの実験を通じて検証される。
論文 参考訳(メタデータ) (2024-03-13T13:23:05Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文 参考訳(メタデータ) (2023-03-15T13:13:03Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。