論文の概要: A Hybrid Autoencoder for Robust Heightmap Generation from Fused Lidar and Depth Data for Humanoid Robot Locomotion
- arxiv url: http://arxiv.org/abs/2602.05855v1
- Date: Thu, 05 Feb 2026 16:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.047517
- Title: A Hybrid Autoencoder for Robust Heightmap Generation from Fused Lidar and Depth Data for Humanoid Robot Locomotion
- Title(参考訳): ヒューマノイドロボットロコモーションのための融合ライダーと深度データからのロバスト高度マップ生成用ハイブリッドオートエンコーダ
- Authors: Dennis Bank, Joost Cordes, Thomas Seel, Simon F. G. Ehlers,
- Abstract要約: 本稿では,中間的なロボット中心のハイトマップ表現を用いた学習ベースのフレームワークを提案する。
空間特徴抽出に畳み込みニューラルネットワーク(CNN)を用いたハイブリッドデコーダ構造(EDS)を導入する。
その結果、マルチモーダル核融合により、深さのみ以上の再現精度が7.2%向上し、LiDARのみの構成で9.9%向上することが示されている。
- 参考スコア(独自算出の注目度): 2.9223917785251285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable terrain perception is a critical prerequisite for the deployment of humanoid robots in unstructured, human-centric environments. While traditional systems often rely on manually engineered, single-sensor pipelines, this paper presents a learning-based framework that uses an intermediate, robot-centric heightmap representation. A hybrid Encoder-Decoder Structure (EDS) is introduced, utilizing a Convolutional Neural Network (CNN) for spatial feature extraction fused with a Gated Recurrent Unit (GRU) core for temporal consistency. The architecture integrates multimodal data from an Intel RealSense depth camera, a LIVOX MID-360 LiDAR processed via efficient spherical projection, and an onboard IMU. Quantitative results demonstrate that multimodal fusion improves reconstruction accuracy by 7.2% over depth-only and 9.9% over LiDAR-only configurations. Furthermore, the integration of a 3.2 s temporal context reduces mapping drift.
- Abstract(参考訳): 信頼性の高い地形認識は、非構造的で人間中心の環境にヒューマノイドロボットを配置するための重要な前提条件である。
従来のシステムは手動で設計した単一センサパイプラインに依存することが多いが,本論文では,ロボット中心のハイトマップ表現を用いた学習ベースのフレームワークを提案する。
時間的整合性のためにGRUコアと融合した空間的特徴抽出に畳み込みニューラルネットワーク(CNN)を利用するハイブリッドエンコーダデコーダ構造(EDS)を導入する。
このアーキテクチャは、Intel RealSenseの深度カメラ、LIVOX MID-360 LiDARによる効率的な球面投影と搭載IMUのマルチモーダルデータを統合する。
定量的な結果は、マルチモーダル核融合は深さのみよりも7.2%、LiDARのみよりも9.9%の精度で再現できることを示している。
さらに、3.2秒の時間コンテキストの統合により、マッピングのドリフトが減少する。
関連論文リスト
- Enhancing Floor Plan Recognition: A Hybrid Mix-Transformer and U-Net Approach for Precise Wall Segmentation [0.0]
本研究では,Mix-TransformerエンコーダとU-Netデコーダを組み合わせたハイブリッドニューラルネットワークMitUNetを紹介する。
我々の手法は精度とリコールのバランスを保ち、正確な境界回復を保証する。
CubiCasa5kデータセットと独自の地域データセットの実験は、構造的に正しいマスクを生成する上でのMitUNetの優位性を示している。
論文 参考訳(メタデータ) (2025-12-02T04:47:53Z) - Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。
生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。
数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文 参考訳(メタデータ) (2025-11-21T07:25:49Z) - OmniUnet: A Multimodal Network for Unstructured Terrain Segmentation on Planetary Rovers Using RGB, Depth, and Thermal Imagery [0.5837061763460748]
この研究は、RGB、深さ、熱画像を用いたセマンティックセグメンテーションのためのトランスフォーマーベースのニューラルネットワークアーキテクチャであるOmniUnetを提示する。
カスタム・マルチモーダル・センサー・ハウジングは3Dプリンティングを使用して開発され、マーチャン・ローバー・テストベッド・フォー・オートノミーに搭載された。
このデータセットのサブセットは手動でラベル付けされ、ネットワークの教師付きトレーニングをサポートする。
推論テストでは、リソース制約されたコンピュータで平均673msの予測時間を得た。
論文 参考訳(メタデータ) (2025-08-01T12:23:29Z) - DISTA-Net: Dynamic Closely-Spaced Infrared Small Target Unmixing [55.366556355538954]
本稿では,動的フレームワーク内で従来のスパース再構築を再現する動的反復収縮閾値ネットワーク(DISTA-Net)を提案する。
DISTA-Netは、密接な空間を持つ赤外線小ターゲットのアンミックスのために特別に設計された最初のディープラーニングモデルである。
私たちはこの分野におけるさらなる研究を促進するために、最初のオープンソースエコシステムを確立しました。
論文 参考訳(メタデータ) (2025-05-25T13:52:00Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - FRAME: Fast and Robust Autonomous 3D point cloud Map-merging for
Egocentric multi-robot exploration [2.433860819518925]
本稿では,エゴセントリックなヘテロジニアスマルチロボット探索のための3次元クラウドマップ統合フレームワークを提案する。
提案した新しいソリューションは、最先端の場所認識学習ディスクリプタを利用して、フレームワークのメインパイプラインを通じて、高速で堅牢なリージョン重複推定を提供する。
提案手法の有効性を, 地下環境における複数フィールドマルチロボット探査計画に基づいて実験的に評価した。
論文 参考訳(メタデータ) (2023-01-22T21:59:38Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Real-Time Monocular Human Depth Estimation and Segmentation on Embedded
Systems [13.490605853268837]
移動中の歩行者に対する衝突回避を実現するためにシーンの深さを推定することは、ロボット分野における決定的かつ基本的な問題である。
本稿では,室内環境における人体深度推定とセグメンテーションを高速かつ高精度に行うための,新しい低複雑性ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-08-24T03:26:08Z) - Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for
Multi-Robot Systems [92.26462290867963]
Kimera-Multiは、最初のマルチロボットシステムであり、不正なインターループとイントラロボットループの閉鎖を識別し拒否することができる。
我々は、フォトリアリスティックシミュレーション、SLAMベンチマークデータセット、地上ロボットを用いて収集された屋外データセットの挑戦において、Kimera-Multiを実証した。
論文 参考訳(メタデータ) (2021-06-28T03:56:40Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。