論文の概要: E-SDS: Environment-aware See it, Do it, Sorted - Automated Environment-Aware Reinforcement Learning for Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2512.16446v1
- Date: Thu, 18 Dec 2025 12:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.043068
- Title: E-SDS: Environment-aware See it, Do it, Sorted - Automated Environment-Aware Reinforcement Learning for Humanoid Locomotion
- Title(参考訳): E-SDS:Humanoid Locomotionのための環境認識型強化学習
- Authors: Enis Yalcin, Joshua O'Hara, Maria Stamatopoulou, Chengxu Zhou, Dimitrios Kanoulas,
- Abstract要約: 視覚言語モデル(VLM)は、ヒューマノイド移動における報酬設計の自動化を約束する。
現在のVLMベースの手法は、複雑な地形をナビゲートするために必要な環境認識が欠如しているため、基本的には「盲目」である。
E-SDS (Environment-aware See, Do it, Sorted) は,この認識ギャップを埋めるフレームワークである。
- 参考スコア(独自算出の注目度): 4.6145021871883305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) show promise in automating reward design in humanoid locomotion, which could eliminate the need for tedious manual engineering. However, current VLM-based methods are essentially "blind", as they lack the environmental perception required to navigate complex terrain. We present E-SDS (Environment-aware See it, Do it, Sorted), a framework that closes this perception gap. E-SDS integrates VLMs with real-time terrain sensor analysis to automatically generate reward functions that facilitate training of robust perceptive locomotion policies, grounded by example videos. Evaluated on a Unitree G1 humanoid across four distinct terrains (simple, gaps, obstacles, stairs), E-SDS uniquely enabled successful stair descent, while policies trained with manually-designed rewards or a non-perceptive automated baseline were unable to complete the task. In all terrains, E-SDS also reduced velocity tracking error by 51.9-82.6%. Our framework reduces the human effort of reward design from days to less than two hours while simultaneously producing more robust and capable locomotion policies.
- Abstract(参考訳): 視覚言語モデル(VLM)は、人型移動における報酬設計の自動化を約束している。
しかしながら、現在のVLMベースの手法は、複雑な地形をナビゲートするために必要な環境認識が欠如しているため、基本的には「盲目」である。
E-SDS (Environment-aware See, Do it, Sorted) は,この認識ギャップを埋めるフレームワークである。
E-SDSは、VLMをリアルタイムな地形センサ分析と統合し、実例ビデオに基づくロコモーションポリシーの堅牢なトレーニングを容易にする報酬関数を自動生成する。
4つの異なる地形(単純、隙間、障害物、階段)にわたるユニトリーG1ヒューマノイドで評価され、E-SDSは単独で階段降下に成功した。
すべての地形において、E-SDSは速度追跡誤差を51.9-82.6%削減した。
我々のフレームワークは、報酬デザインの人的労力を数日から2時間未満に減らし、同時により堅牢で有能なロコモーションポリシーを生み出します。
関連論文リスト
- YOLOv8-SMOT: An Efficient and Robust Framework for Real-Time Small Object Tracking via Slice-Assisted Training and Adaptive Association [5.07987775511372]
本稿では,MVA 2025 "Finding Birds" Small Multi-Object Tracking Challenge (SMOT4SB)におけるチャンピオンシップ獲得ソリューションについて述べる。
トラッキング・バイ・検出のパラダイムを採用し、検出レベルとアソシエーションレベルの両方で目標とするイノベーションを実現している。
本手法はSMOT4SB公開テストセット上での最先端性能を実現し,SO-HOTAスコアの textbf55.205 に達する。
論文 参考訳(メタデータ) (2025-07-16T09:51:19Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Fast Traversability Estimation for Wild Visual Navigation [17.015268056925745]
トラバーサビリティ推定のためのオンライン自己教師型学習システムであるWild Visual Navigation (WVN)を提案する。
このシステムは、現場での短い人間のデモから継続的に適応することができる。
森林・公園・草地における挑戦的環境における実験・アブレーション研究によるアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-05-15T10:19:30Z) - Relatively Lazy: Indoor-Outdoor Navigation Using Vision and GNSS [14.39926267531322]
相対ナビゲーションは、困難な環境での自律的な視覚ベースのパスに対する堅牢で効率的なソリューションである。
遅延マッピングと経路追跡誤差が必要とされるまで遅延推定は絶対状態を推定する必要がないことを示す。
自律走行経路繰り返し3.5kmのジョイント屋内ドア環境における実験を通して,実ロボットのアプローチを検証する。
論文 参考訳(メタデータ) (2021-01-13T14:43:45Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。