論文の概要: BAT: Balancing Agility and Stability via Online Policy Switching for Long-Horizon Whole-Body Humanoid Control
- arxiv url: http://arxiv.org/abs/2604.01064v1
- Date: Wed, 01 Apr 2026 16:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.075848
- Title: BAT: Balancing Agility and Stability via Online Policy Switching for Long-Horizon Whole-Body Humanoid Control
- Title(参考訳): BAT: 長軸全体ヒューマノイド制御のためのオンラインポリシースイッチングによるアジリティと安定性のバランス
- Authors: Donghoon Baek, Sang-Hun Kim, Sehoon Ha,
- Abstract要約: 我々は、さまざまな動きの文脈でアジリティと安定性のバランスをとるオンラインポリシー変更フレームワークを提案する。
我々のフレームワークは2つの相補的なモジュールで構成されている: 階層的RLで学習したスイッチングポリシーと、スライディング・ホライゾン・ポリシーの事前評価からのエキスパートガイダンスと、離散的なモーショントークンシーケンスからオプションの選好を予測するオプション対応VQ-VAEである。
- 参考スコア(独自算出の注目度): 8.89868129670092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in control, reinforcement learning, and imitation learning, developing a unified framework that can achieve agile, precise, and robust whole-body behaviors, particularly in long-horizon tasks, remains challenging. Existing approaches typically follow two paradigms: coupled whole-body policies for global coordination and decoupled policies for modular precision. However, without a systematic method to integrate both, this trade-off between agility, robustness, and precision remains unresolved. In this work, we propose BAT, an online policy-switching framework that dynamically selects between two complementary whole-body RL controllers to balance agility and stability across different motion contexts. Our framework consists of two complementary modules: a switching policy learned via hierarchical RL with an expert guidance from sliding-horizon policy pre-evaluation, and an option-aware VQ-VAE that predicts option preference from discrete motion token sequences for improved generalization. The final decision is obtained via confidence-weighted fusion of two modules. Extensive simulations and real-world experiments on the Unitree G1 humanoid robot demonstrate that BAT enables versatile long-horizon loco-manipulation and outperforms prior methods across diverse tasks.
- Abstract(参考訳): コントロール、強化学習、模倣学習の最近の進歩にもかかわらず、アジャイルで正確で堅牢な全体行動、特に長期的タスクにおいて達成可能な統一されたフレームワークの開発は、依然として困難なままである。
既存のアプローチは、グローバルコーディネートのための全体ポリシーとモジュラー精度のための分離されたポリシーの2つのパラダイムに従うのが一般的である。
しかし、両方を統合する体系的な方法がなければ、アジリティ、堅牢性、正確性の間のこのトレードオフは未解決のままである。
本研究では,動作コンテキストの異なる2つのRLコントローラ間を動的に選択し,俊敏性と安定性のバランスをとるオンラインポリシスイッチングフレームワークであるBATを提案する。
我々のフレームワークは2つの相補的なモジュールで構成されている: 階層的RLで学習したスイッチングポリシーと、スライディング・ホライゾン・ポリシーの事前評価からのエキスパートガイダンスと、離散的な動きトークン列からのオプション選択を予測して一般化を改善するオプション対応VQ-VAEである。
最後の決定は、2つのモジュールの信頼重み付け融合によって得られる。
Unitree G1ヒューマノイドロボットの大規模なシミュレーションと実世界の実験により、BATは多用途の長距離ロコ操作を可能にし、様々なタスクで先行手法に勝ることを示した。
関連論文リスト
- PCHC: Enabling Preference Conditioned Humanoid Control via Multi-Objective Reinforcement Learning [50.63196995993855]
多目的強化学習(MORL)を活用してPCHC(Preference-Conditioned Humanoid Control)を実現する新しいフレームワークを提案する。
当社のフレームワークは、単一の嗜好条件のポリシーを多種多様な行動を示すために有効である。
論文 参考訳(メタデータ) (2026-03-25T07:55:37Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - DCoPilot: Generative AI-Empowered Policy Adaptation for Dynamic Data Center Operations [9.210347753567092]
DCoPilotは動的DC動作における生成制御ポリシのためのハイブリッドフレームワークである。
i) ストレステストを行うシミュレーションスケールアップ、(ii) メタポリシー蒸留、(ii) ハイパーネットワークがSLAとシーン埋め込みを条件としたポリシー重みを出力するように訓練され、(iii) オンライン適応により、更新された仕様に応じてゼロショットポリシー生成を可能にする。
論文 参考訳(メタデータ) (2026-02-02T14:18:52Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning [8.277689331569787]
本稿では,大規模言語モデルの事前学習と微調整戦略に触発された統一型生成フレームワークUEPOを提案する。
筆者らの貢献は,(1)複数のモデルを訓練することなく,多種多様なモダリティを効率的に捉えるマルチシーズ対応拡散政策,(2)物理的に意味のある政策多様性を強制する動的分散正規化機構,(3)動的モデル一般化を強化する拡散型データ拡張モジュールの3つである。
論文 参考訳(メタデータ) (2025-11-13T08:42:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。