論文の概要: Learning to Ball: Composing Policies for Long-Horizon Basketball Moves
- arxiv url: http://arxiv.org/abs/2509.22442v1
- Date: Fri, 26 Sep 2025 15:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.5239
- Title: Learning to Ball: Composing Policies for Long-Horizon Basketball Moves
- Title(参考訳): ボールの学習:長距離バスケットボール運動のための作曲ポリシー
- Authors: Pei Xu, Zhen Wu, Ruocheng Wang, Vishnu Sarukkai, Kayvon Fatahalian, Ioannis Karamouzas, Victor Zordan, C. Karen Liu,
- Abstract要約: ロングホライゾンタスクは、明確に定義された目標を持つサブタスクから成り、不明確な目標を持つトランジショナルサブタスクによって分離される。
専門家の混在やスキル連鎖のような既存の手法は、個別のポリシーが広く検討されている重要な状態を共有していないタスクと競合する。
本稿では,長期的タスクにおける運動能力の大幅な変化を実現するための新しいポリシー統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.21981598232154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a control policy for a multi-phase, long-horizon task, such as basketball maneuvers, remains challenging for reinforcement learning approaches due to the need for seamless policy composition and transitions between skills. A long-horizon task typically consists of distinct subtasks with well-defined goals, separated by transitional subtasks with unclear goals but critical to the success of the entire task. Existing methods like the mixture of experts and skill chaining struggle with tasks where individual policies do not share significant commonly explored states or lack well-defined initial and terminal states between different phases. In this paper, we introduce a novel policy integration framework to enable the composition of drastically different motor skills in multi-phase long-horizon tasks with ill-defined intermediate states. Based on that, we further introduce a high-level soft router to enable seamless and robust transitions between the subtasks. We evaluate our framework on a set of fundamental basketball skills and challenging transitions. Policies trained by our approach can effectively control the simulated character to interact with the ball and accomplish the long-horizon task specified by real-time user commands, without relying on ball trajectory references.
- Abstract(参考訳): バスケットボールの操りなど多相長軸課題に対する制御政策の学習は、シームレスな政策構成とスキル間の遷移の必要性から、強化学習アプローチでは依然として困難である。
ロングホライゾンタスクは通常、明確に定義された目標を持つ異なるサブタスクで構成され、明確な目標を持つが、タスク全体の成功に不可欠なトランジショナルサブタスクによって分離される。
専門家の混在やスキル連鎖といった既存の手法は、個々の政策が大きな共通する状態を共有したり、異なるフェーズ間で明確に定義された初期状態と終末状態が欠如しているタスクと競合する。
本稿では, 未定義の中間状態をもつ多相長軸タスクにおいて, 運動能力の大幅な異なる構成を可能にするための, 新たなポリシー統合フレームワークを提案する。
これに基づいて,サブタスク間のシームレスかつロバストな遷移を可能にする,ハイレベルなソフトルータも導入する。
バスケットボールの基本スキルと挑戦的な移行のセットについて、我々の枠組みを評価します。
提案手法によって訓練されたポリシは,ボールの軌道参照に頼ることなく,ボールと対話するためのシミュレーション文字を効果的に制御し,リアルタイムユーザコマンドが指定する長距離タスクを達成できる。
関連論文リスト
- Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon
Manipulation [28.37417344133933]
本稿では、長期タスク目標を達成するための複数の厳密なポリシーをチェーンする汎用システムであるSequential Dexterityを提案する。
システムの中核は、連鎖の成功率を高めるためのサブ政治を段階的に微調整する移行実現機能である。
本システムでは,新規な物体形状への一般化能力を実証し,デキスタラスハンドを備えた実世界ロボットへのゼロショット移動を可能にする。
論文 参考訳(メタデータ) (2023-09-02T16:55:48Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Latent Plans for Task-Agnostic Offline Reinforcement Learning [32.938030244921755]
本研究では,高次元カメラ観測からタスク非依存のロングホライゾンポリシーを学習するための新しい階層的アプローチを提案する。
我々の定式化によって、未確認のスキルの組み合わせを生産し、潜伏したスキルを"ステッチ"することで、時間的に拡張された目標を達成することが可能であることが示される。
実世界の25の異なる操作タスクに対するマルチタスクビズモータポリシーも学習し、模倣学習とオフライン強化学習の両方に優れています。
論文 参考訳(メタデータ) (2022-09-19T12:27:15Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。