論文の概要: VGF-Net: Visual-Geometric Fusion Learning for Simultaneous Drone
Navigation and Height Mapping
- arxiv url: http://arxiv.org/abs/2104.03109v1
- Date: Wed, 7 Apr 2021 13:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:48:18.972195
- Title: VGF-Net: Visual-Geometric Fusion Learning for Simultaneous Drone
Navigation and Height Mapping
- Title(参考訳): VGF-Net:同時ドローンナビゲーションと高度マッピングのための視覚幾何学的融合学習
- Authors: Yilin Liu, Ke Xie, and Hui Huang
- Abstract要約: 本研究では,映像・地理データの融合解析と2.5次元高度地図作成のためのネットワーク構築について紹介する。
VGF-Netは視覚的および幾何学的な情報を適応的に融合し、統一された視覚幾何学的表現を形成する。
エンドツーエンドの情報融合とマッピングシステム全体が形成され、自律型ドローンナビゲーションにおいて驚くべき堅牢性と高い精度を発揮します。
- 参考スコア(独自算出の注目度): 12.927255441037168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The drone navigation requires the comprehensive understanding of both visual
and geometric information in the 3D world. In this paper, we present a
Visual-Geometric Fusion Network(VGF-Net), a deep network for the fusion
analysis of visual/geometric data and the construction of 2.5D height maps for
simultaneous drone navigation in novel environments. Given an initial rough
height map and a sequence of RGB images, our VGF-Net extracts the visual
information of the scene, along with a sparse set of 3D keypoints that capture
the geometric relationship between objects in the scene. Driven by the data,
VGF-Net adaptively fuses visual and geometric information, forming a unified
Visual-Geometric Representation. This representation is fed to a new
Directional Attention Model(DAM), which helps enhance the visual-geometric
object relationship and propagates the informative data to dynamically refine
the height map and the corresponding keypoints. An entire end-to-end
information fusion and mapping system is formed, demonstrating remarkable
robustness and high accuracy on the autonomous drone navigation across complex
indoor and large-scale outdoor scenes. The dataset can be found in
http://vcc.szu.edu.cn/research/2021/VGFNet.
- Abstract(参考訳): ドローンナビゲーションは、3Dの世界における視覚情報と幾何学情報の両方を包括的に理解する必要がある。
本稿では,視覚・幾何学データの融合解析のための深層ネットワークであるビジュアル・ジオメトリ・フュージョン・ネットワーク(VGF-Net)について述べる。
最初の粗い高さマップとRGB画像のシーケンスを与えられたVGF-Netは、シーンの視覚情報を抽出し、シーン内のオブジェクト間の幾何学的関係を捉える3Dキーポイントのスパースセットを抽出する。
データによって駆動されるVGF-Netは、視覚情報と幾何学情報を適応的に融合し、統一された視覚幾何学表現を形成する。
この表現は新たな方向注意モデル(DAM)に供給され、視覚的・幾何学的オブジェクト関係を強化し、情報的データを伝播して高さマップと対応するキーポイントを動的に洗練する。
複雑な屋内および大規模屋外のシーンを横断する自律ドローンナビゲーションにおいて、顕著な堅牢性と高い精度を示す、エンドツーエンドの情報融合マッピングシステム全体を形成する。
データセットはhttp://vcc.szu.edu.cn/research/2021/VGFNetにある。
関連論文リスト
- Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Mono3DVG: 3D Visual Grounding in Monocular Images [12.191320182791483]
外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。
大規模データセット Mono3DRefer を構築し,それに対応する幾何学的テキスト記述を備えた3Dオブジェクトを対象とする。
テキスト埋め込みにおける外観情報と幾何学情報の両方を利用するエンドツーエンドのトランスフォーマーネットワークであるMono3DVG-TRを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:49:59Z) - SimpleMapping: Real-Time Visual-Inertial Dense Mapping with Deep
Multi-View Stereo [13.535871843518953]
モノクロ画像とIMU読解のみを用いた高画質のリアルタイムビジュアル慣性高密度マッピング法を提案する。
そこで本稿では,VIOシステムから得られる情報的だがノイズの多いスパースポイントを効果的に活用できるスパースポイント支援ステレオニューラルネットワーク(SPA-MVSNet)を提案する。
提案手法は,EuRoCデータセットの難易度評価において,既存システムよりも39.7%のFスコア向上を実現している。
論文 参考訳(メタデータ) (2023-06-14T17:28:45Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - A Novel 3D-UNet Deep Learning Framework Based on High-Dimensional
Bilateral Grid for Edge Consistent Single Image Depth Estimation [0.45880283710344055]
3DBG-UNetと呼ばれるバイラテラルグリッドベースの3D畳み込みニューラルネットワークは、UNetsでコンパクトな3D二元格子を符号化することで、高次元の特徴空間をパラメータ化する。
別の新しい3DBGES-UNetモデルは、3DBG-UNetを統合して1つのカラービューの正確な深度マップを推測するものである。
論文 参考訳(メタデータ) (2021-05-21T04:53:14Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。