論文の概要: Learning Task-Agnostic Action Spaces for Movement Optimization
- arxiv url: http://arxiv.org/abs/2009.10337v2
- Date: Fri, 23 Jul 2021 13:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:15:37.208471
- Title: Learning Task-Agnostic Action Spaces for Movement Optimization
- Title(参考訳): 運動最適化のためのタスク非依存行動空間の学習
- Authors: Amin Babadi, Michiel van de Panne, C. Karen Liu, Perttu
H\"am\"al\"ainen
- Abstract要約: そこで本研究では,物理ベースのアニメーションキャラクターのダイナミクスを探索する新しい手法を提案する。
目標状態としてアクションをパラメータ化し、目標に向かってエージェントの状態を駆動する短水平目標条件の低レベル制御ポリシーを学習する。
- 参考スコア(独自算出の注目度): 18.37812596641983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel method for exploring the dynamics of physically based
animated characters, and learning a task-agnostic action space that makes
movement optimization easier. Like several previous papers, we parameterize
actions as target states, and learn a short-horizon goal-conditioned low-level
control policy that drives the agent's state towards the targets. Our novel
contribution is that with our exploration data, we are able to learn the
low-level policy in a generic manner and without any reference movement data.
Trained once for each agent or simulation environment, the policy improves the
efficiency of optimizing both trajectories and high-level policies across
multiple tasks and optimization algorithms. We also contribute novel
visualizations that show how using target states as actions makes optimized
trajectories more robust to disturbances; this manifests as wider optima that
are easy to find. Due to its simplicity and generality, our proposed approach
should provide a building block that can improve a large variety of movement
optimization methods and applications.
- Abstract(参考訳): 本稿では,身体的アニメーションキャラクタのダイナミクスを探索し,動作最適化を容易にするタスク非依存な動作空間を学習する新しい手法を提案する。
いくつかの論文と同様に、動作を目標状態としてパラメータ化し、エージェントの状態を目標に向かって駆動する短期目標条件の低レベル制御ポリシーを学ぶ。
我々の新しい貢献は、探索データにより、参照移動データなしで、一般的な方法で低レベル政策を学習できるということです。
各エージェントやシミュレーション環境で一度トレーニングされたポリシは、複数のタスクと最適化アルゴリズムをまたいだトラジェクトリとハイレベルポリシの両方を最適化する効率を改善する。
また、ターゲット状態を動作として使用することで、最適化された軌道が障害に対してより堅牢になることを示す新しい視覚化も提供します。
その単純さと汎用性から,提案手法は,多種多様な移動最適化手法やアプリケーションを改善するビルディングブロックを提供するべきである。
関連論文リスト
- MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文 参考訳(メタデータ) (2024-10-09T03:27:14Z) - Extremum-Seeking Action Selection for Accelerating Policy Optimization [18.162794442835413]
連続空間の制御のための強化学習は、典型的にはガウス分布のような高エントロピーポリシーを用いて局所的な探索と性能の最適化を推定する。
本稿では,ESC(Extremum-Seeking Control)に基づく適応制御を付加することで,モデルフリーなRL設定におけるアクション選択を改善することを提案する。
本手法は, 各種制御学習環境において, 学習効率を向上させるために, 標準方針最適化において容易に追加することができる。
論文 参考訳(メタデータ) (2024-04-02T02:39:17Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Hierarchical Policy Blending as Inference for Reactive Robot Control [21.058662668187875]
ぼんやりした、密集した、ダイナミックな環境における運動生成は、ロボット工学における中心的なトピックである。
反応ポリシーと計画の利点を組み合わせた階層的な動き生成手法を提案する。
平面ナビゲーションと6DoF操作の実験的研究により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
論文 参考訳(メタデータ) (2022-10-14T15:16:54Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Optimizing Indoor Navigation Policies For Spatial Distancing [8.635212273689273]
本稿では,住民の移動パターンや方向指示に繋がる政策の変更に焦点をあてる。
本フレームワークでは,エージェント間の空間的距離の分散を改善するために,シミュレーション最適化プロセスが有効であることを示す。
論文 参考訳(メタデータ) (2022-06-04T21:57:22Z) - Learning to Explore by Reinforcement over High-Level Options [0.0]
エージェントに「見回し」と「フロンティアナビゲーション」という2つの行動選択肢を与える新しい手法を提案する。
各タイムステップにおいて、エージェントはポリシーに従ってオプションと対応するアクションを生成する。
提案手法が利用可能な2つの3次元環境データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-11-02T04:21:34Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。