論文の概要: Generalizing from References using a Multi-Task Reference and Goal-Driven RL Framework
- arxiv url: http://arxiv.org/abs/2602.20375v1
- Date: Mon, 23 Feb 2026 21:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.658247
- Title: Generalizing from References using a Multi-Task Reference and Goal-Driven RL Framework
- Title(参考訳): マルチタスク参照とゴール駆動RLフレームワークによる参照からの一般化
- Authors: Jiashun Wang, M. Eva Mungai, He Li, Jean Pierre Sleiman, Jessica Hodgins, Farbod Farshidian,
- Abstract要約: 本研究では,人間の動作からヒューマノイドの動作を学習するためのマルチタスク強化学習フレームワークを提案する。
単一の目標条件付きポリシーは、同じ観測空間と行動空間を共有する2つのタスクで共同で訓練される。
これらの目的を共通の定式化内で協調最適化することにより、このポリシーは、密集した基準監督から構造化された人間のような運動スキルを取得する。
- 参考スコア(独自算出の注目度): 12.131501436717969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning agile humanoid behaviors from human motion offers a powerful route to natural, coordinated control, but existing approaches face a persistent trade-off: reference-tracking policies are often brittle outside the demonstration dataset, while purely task-driven Reinforcement Learning (RL) can achieve adaptability at the cost of motion quality. We introduce a unified multi-task RL framework that bridges this gap by treating reference motion as a prior for behavioral shaping rather than a deployment-time constraint. A single goal-conditioned policy is trained jointly on two tasks that share the same observation and action spaces, but differ in their initialization schemes, command spaces, and reward structures: (i) a reference-guided imitation task in which reference trajectories define dense imitation rewards but are not provided as policy inputs, and (ii) a goal-conditioned generalization task in which goals are sampled independently of any reference and where rewards reflect only task success. By co-optimizing these objectives within a shared formulation, the policy acquires structured, human-like motor skills from dense reference supervision while learning to adapt these skills to novel goals and initial conditions. This is achieved without adversarial objectives, explicit trajectory tracking, phase variables, or reference-dependent inference. We evaluate the method on a challenging box-based parkour playground that demands diverse athletic behaviors (e.g., jumping and climbing), and show that the learned controller transfers beyond the reference distribution while preserving motion naturalness. Finally, we demonstrate long-horizon behavior generation by composing multiple learned skills, illustrating the flexibility of the learned polices in complex scenarios.
- Abstract(参考訳): 人間の動きからアジャイルなヒューマノイドの振る舞いを学ぶことは、自然な調整されたコントロールへの強力な経路を提供するが、既存のアプローチは、永続的なトレードオフに直面している。
本稿では,参照動作をデプロイメント時間制約ではなく,行動形成の先行として扱うことで,このギャップを埋める統合マルチタスクRLフレームワークを提案する。
単一の目標条件付きポリシーは、同じ観測空間と行動空間を共有する2つのタスクで共同で訓練されるが、初期化スキーム、コマンド空間、報酬構造が異なる。
一 基準軌道が密集した模倣報酬を定め、かつ、政策の入力として提供しない基準誘導模倣業務
二 目標条件付き一般化タスクであって、任意の基準から独立してゴールをサンプリングし、報酬がタスクの成功のみを反映するものであること。
これらの目標を共通の定式化内で共同最適化することにより、この方針は、厳密な基準監督から構造化された人間のような運動スキルを取得しながら、これらのスキルを新しい目標と初期条件に適応させることを学ぶ。
これは、反対の目的、明示的な軌跡追跡、位相変数、参照依存推論なしで達成される。
本手法は,多様な運動行動(例えばジャンプやクライミング)を必要とする挑戦的な箱型パールグラウンドで評価し,学習したコントローラが運動の自然性を保ちながら基準分布を超えて移動することを示す。
最後に,複数の学習スキルを構成し,複雑なシナリオにおいて学習した警察の柔軟性を示すことによって,長期的行動生成を実証する。
関連論文リスト
- Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Provable Representation Learning for Imitation with Contrastive Fourier
Features [27.74988221252854]
オフライン体験データセットを用いて低次元の状態表現を学習する。
主要な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないことである。
我々は、目標ポリシーと最大様態で訓練された低次元ポリシーとの性能差を上限とする表現学習目標を導出する。
論文 参考訳(メタデータ) (2021-05-26T00:31:30Z) - A GAN-Like Approach for Physics-Based Imitation Learning and Interactive
Character Control [2.2082422928825136]
物理的にシミュレートされた文字の対話的制御のためのシンプルで直感的なアプローチを提案する。
本研究は,GAN(Generative Adversarial Network)と強化学習に基づく。
我々は,本手法の適用性を,模倣と対話的な制御タスクの範囲で強調する。
論文 参考訳(メタデータ) (2021-05-21T00:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。