論文の概要: Now You See That: Learning End-to-End Humanoid Locomotion from Raw Pixels
- arxiv url: http://arxiv.org/abs/2602.06382v1
- Date: Fri, 06 Feb 2026 04:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.223915
- Title: Now You See That: Learning End-to-End Humanoid Locomotion from Raw Pixels
- Title(参考訳): カメラで人型ロボットのローコモーションを学べる
- Authors: Wandong Sun, Yongbo Su, Leoric Huang, Alex Zhang, Dwyane Wei, Mu San, Daniel Tian, Ellie Cao, Finn Yan, Ethan Xie, Zongwu Xie,
- Abstract要約: 視覚駆動型ヒューマノイド移動のためのエンドツーエンドフレームワークを提案する。
頑健なsim-to-real転送を実現するため,高忠実度深度センサシミュレーションを開発した。
本稿では,遅延空間アライメントと雑音不変の補助タスクを組み合わせた視覚的行動蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 1.3015553594945661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving robust vision-based humanoid locomotion remains challenging due to two fundamental issues: the sim-to-real gap introduces significant perception noise that degrades performance on fine-grained tasks, and training a unified policy across diverse terrains is hindered by conflicting learning objectives. To address these challenges, we present an end-to-end framework for vision-driven humanoid locomotion. For robust sim-to-real transfer, we develop a high-fidelity depth sensor simulation that captures stereo matching artifacts and calibration uncertainties inherent in real-world sensing. We further propose a vision-aware behavior distillation approach that combines latent space alignment with noise-invariant auxiliary tasks, enabling effective knowledge transfer from privileged height maps to noisy depth observations. For versatile terrain adaptation, we introduce terrain-specific reward shaping integrated with multi-critic and multi-discriminator learning, where dedicated networks capture the distinct dynamics and motion priors of each terrain type. We validate our approach on two humanoid platforms equipped with different stereo depth cameras. The resulting policy demonstrates robust performance across diverse environments, seamlessly handling extreme challenges such as high platforms and wide gaps, as well as fine-grained tasks including bidirectional long-term staircase traversal.
- Abstract(参考訳): シム・トゥ・リアルギャップは、きめ細かいタスクのパフォーマンスを低下させる顕著な知覚ノイズを導入し、多様な地形で統一されたポリシーを訓練することは、学習目標の矛盾によって妨げられる。
これらの課題に対処するため,視覚駆動型ヒューマノイド移動のためのエンドツーエンドフレームワークを提案する。
実世界のセンシングに固有のステレオマッチングアーティファクトとキャリブレーションの不確かさをキャプチャする高忠実度深度センサシミュレーションを開発した。
さらに、雑音不変の補助課題と潜時空間アライメントを組み合わせた視覚的行動蒸留手法を提案し、特権高度マップから雑音の深い深度観測への効果的な知識伝達を可能にする。
地形の多角的適応のために,各地形の異なる動態や動きの先行を専用のネットワークで捉える,多批判・多識別学習と統合した地形特異的報酬形成を導入する。
我々は,異なる立体深度カメラを備えた2つのヒューマノイドプラットフォームに対するアプローチを検証する。
結果として得られたポリシーは、多種多様な環境にまたがって堅牢なパフォーマンスを示し、高いプラットフォームや広いギャップといった極端な課題をシームレスに処理し、また、双方向の長期的階段横断を含むきめ細かいタスクを処理します。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Head Anchor Enhanced Detection and Association for Crowded Pedestrian Tracking [8.653608112604472]
提案手法は,物体検出器の回帰と分類の両方から検出特徴を取り入れたものである。
動きモデリングの観点で、現代の検出器仮定に適合するように設計された反復カルマンフィルタリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-07T15:47:34Z) - DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models [11.34839442803445]
道路利用者を対象とした多クラス協調検出・追跡フレームワークを提案する。
まず,大域的空間注意融合(GSAF)モジュールを用いた検出器を提案する。
次に,視覚基盤モデルを用いた視覚的セマンティクスを活用し,IDSW(ID SWitch)エラーを効果的に低減するトラックレットRe-IDentification(REID)モジュールを提案する。
論文 参考訳(メタデータ) (2025-06-09T02:49:10Z) - Diffeomorphic Obstacle Avoidance for Contractive Dynamical Systems via Implicit Representations [0.6144680854063939]
本稿では、デモから学んだダイナミックロボットの安全性と堅牢性を両立させるという課題に対処する。
我々は、学習スキルの堅牢な外挿を提供するために、神経収縮力学系を構築している。
我々は、微分同相変換による収縮安定性を維持するフルボディ障害物回避戦略を設計する。
論文 参考訳(メタデータ) (2025-04-26T08:56:51Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。