論文の概要: Learning to Evolve: Multi-modal Interactive Fields for Robust Humanoid Navigation in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2605.21935v1
- Date: Thu, 21 May 2026 03:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.070349
- Title: Learning to Evolve: Multi-modal Interactive Fields for Robust Humanoid Navigation in Dynamic Environments
- Title(参考訳): 進化への学習:動的環境におけるロバストなヒューマノイドナビゲーションのためのマルチモーダルインタラクティブフィールド
- Authors: Peifeng Jiang, Hong Liu, Jin Jin, Wenshuai Wang, Xia Li,
- Abstract要約: マルチモーダル・インタラクティブ・フィールド(MIF)は、信頼を意識したセマンティック3Dガウス・スプラッティング、離散性トリガー付き空間記憶更新、およびクローズドループ認識適応パイプライン内でのタスク駆動幾何再構成を統合したヒューマノイド指向システムである。
実際のダイナミックオフィスのUnitree-G1ヒューマノイドでは、MIFは静的なシーングラフメモリに比べて12%から94%の非静的環境における再配置の成功を改善し、実用的なオンライン操作のための機能蒸留によってセマンティックメモリのフットプリントを91.4%削減した。
- 参考スコア(独自算出の注目度): 10.149525023566712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe manipulation-oriented navigation for humanoid robots requires scene memory that remains reliable under locomotion-induced perceptual distortion, environmental changes, and interaction-level geometric safety constraints. Existing semantic mapping and scene-graph systems are difficult to deploy directly in this setting because they often assume stable camera trajectories, static environments, or coarse object geometry. We introduce the Multi-modal Interactive Field (MIF), a humanoid-oriented system that integrates confidence-aware semantic 3D Gaussian Splatting, discrepancy-triggered spatial memory updates, and task-driven geometric reconstruction within a closed-loop perception-adaptation pipeline. MIF couples three fields: an uncertainty-aware 3DGS Appearance Field that suppresses gait-induced blur, a Spatial Field that maintains topological memory, and a Geometry Field that supports Interaction Pose Safety (IPS) before manipulation. A discrepancy detection score is introduced to separate locomotion-induced false-positive changes from persistent changes and updates only locally inconsistent regions. On a Unitree-G1 humanoid in a real dynamic office, MIF improves relocation success in non-static environments from 12% to 94% compared with static scene-graph memory, while reducing semantic memory footprint by 91.4% through feature distillation for practical online operation. Project page and code: https://ziya-jiang.github.io/MIF-homepage/
- Abstract(参考訳): ヒューマノイドロボットの安全な操作指向ナビゲーションには、ロコモーションによる知覚歪み、環境変化、相互作用レベルの幾何学的安全制約の下で信頼性の高いシーンメモリが必要である。
既存のセマンティックマッピングやシーングラフシステムは、安定なカメラ軌跡、静的環境、粗いオブジェクト形状を前提としていることが多いため、この設定で直接デプロイすることは困難である。
そこで我々は,Multi-modal Interactive Field (MIF)を導入し,信頼度を考慮したセマンティック3次元ガウス分割,離散性トリガー空間メモリ更新,クローズドループ認識適応パイプライン内のタスク駆動幾何再構成を統合したヒューマノイド指向システムを提案する。
MIFは、歩行によって引き起こされるぼかしを抑制する不確実性を認識した3DGS外見場、トポロジカルメモリを維持する空間場、操作前のインタラクション・ポーズ・セーフティ(IPS)をサポートする幾何学場という3つの分野を結合している。
相違検出スコアは、移動によって引き起こされた持続的な変化から偽陽性の変化を分離し、局所的に矛盾する領域のみを更新するために導入される。
実際のダイナミックオフィスのUnitree-G1ヒューマノイドでは、MIFは静的なシーングラフメモリに比べて12%から94%の非静的環境における再配置の成功を改善し、実用的なオンライン操作のための機能蒸留によってセマンティックメモリのフットプリントを91.4%削減した。
プロジェクトページとコード:https://ziya-jiang.github.io/MIF-homepage/
関連論文リスト
- Change-Robust Online Spatial-Semantic Topological Mapping [10.541004576272163]
自律型ロボットは、環境の変化にもかかわらず、どこに行くか、どうやって行くか、そしてロボットがどこにいるかを決定するために、変更のロマンティックな推論を必要とする。
既存のアプローチは通常SLAMで構築されたメートル法マップにセマンティクスを付加するが、これらのパイプラインは外観シフトやシーンダイナミクスの下で不安定である。
本稿では,RGB-D再構成のオンライン・ポーズ対応トポロジカルグラフに,一貫した計量基板を置き換えた変更ロバストオンライン空間意味表現を提案する。
論文 参考訳(メタデータ) (2026-05-04T05:00:12Z) - Robust Cross-Domain WiFi Fall Detection via Physics-Driven Attention-Enhanced Transformers [64.35403680946182]
WiFiチャンネル状態情報(CSI)を利用したデバイスフリーの転倒検出が,高齢者の健康モニタリングのための有望なソリューションとして浮上している。
既存のディープラーニングアプローチでは、目に見えない環境にデプロイされた場合、パフォーマンスが大幅に低下する。
本稿では,新しいCNN-Transformerハイブリッドアーキテクチャを特徴とする,堅牢で汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-23T03:28:12Z) - MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model [12.096387853748938]
地上ロボット(AGR)は、監視や災害対応に広く利用されている。
現在のAGRナビゲーションシステムは、静的環境においてよく機能する。
しかし、これらのシステムは動的で厳しい閉塞シーンの課題に直面している。
これらの問題に対処するために,効率的なAGR-Plannerを用いたOccMambaを提案する。
論文 参考訳(メタデータ) (2024-08-20T07:50:29Z) - Memorize What Matters: Emergent Scene Decomposition from Multitraverse [54.487589469432706]
3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。
3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。
We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
論文 参考訳(メタデータ) (2024-05-27T14:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。