論文の概要: Learning Emergent Gaits with Decentralized Phase Oscillators: on the
role of Observations, Rewards, and Feedback
- arxiv url: http://arxiv.org/abs/2402.08662v1
- Date: Tue, 13 Feb 2024 18:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:03:20.733658
- Title: Learning Emergent Gaits with Decentralized Phase Oscillators: on the
role of Observations, Rewards, and Feedback
- Title(参考訳): 分散位相発振器を用いた創発的歩行の学習--観察・報酬・フィードバックの役割について
- Authors: Jenny Zhang, Steve Heim, Se Hwan Jeon, Sangbae Kim
- Abstract要約: 四足歩行学習のための最小位相発振器モデルを提案する。
位相観察, 単純な位相に基づく報酬, および局所フィードバックのダイナミクスの組み合わせは, 突発的な歩行嗜好を示すポリシーを誘導することを示した。
- 参考スコア(独自算出の注目度): 16.290816894141003
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present a minimal phase oscillator model for learning quadrupedal
locomotion. Each of the four oscillators is coupled only to itself and its
corresponding leg through local feedback of the ground reaction force, which
can be interpreted as an observer feedback gain. We interpret the oscillator
itself as a latent contact state-estimator. Through a systematic ablation
study, we show that the combination of phase observations, simple phase-based
rewards, and the local feedback dynamics induces policies that exhibit emergent
gait preferences, while using a reduced set of simple rewards, and without
prescribing a specific gait. The code is open-source, and a video synopsis
available at https://youtu.be/1NKQ0rSV3jU.
- Abstract(参考訳): 四足歩行学習のための最小位相発振器モデルを提案する。
4つの発振器はそれぞれ、地上反応力の局所的なフィードバックによってそれ自体と対応する脚にのみ結合され、これはオブザーバフィードバックゲインと解釈できる。
発振器自体を潜在接触状態推定器と解釈する。
系統的アブレーション研究により, 位相観測, 単純な位相に基づく報酬, 局所的なフィードバックのダイナミクスの組み合わせは, 特定の歩行を規定することなく, 簡単な報酬を減らしながら, 創発的な歩行嗜好を示す政策を誘導することを示した。
コードはオープンソースで、ビデオ合成はhttps://youtu.be/1NKQ0rSV3jUで公開されている。
関連論文リスト
- Probing entanglement of a continuous basis system [0.0]
本研究では,非アクセス性連続基底量子系における絡み合いを探索する手法を提案する。
本手法は,(量子オシレータ)-(量子オシレータ)サブシステムによって構成された4粒子系における絡み合いの保存に関する観測に基づいている。
論文 参考訳(メタデータ) (2024-09-12T19:59:06Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Evolution of many-body systems under ancilla quantum measurements [58.720142291102135]
本研究では,多体格子系をアシラリー自由度に結合させることにより量子測度を実装するという概念について検討する。
従来より抽象的なモデルで見られたように, アンタングリング・エンタングリング測定によって引き起こされる遷移の証拠を見いだす。
論文 参考訳(メタデータ) (2023-03-13T13:06:40Z) - Orbit quantization in a retarded harmonic oscillator [0.0]
我々は,最初のホップ分岐の値を解析的に予測し,自励運動を解き放つ。
システムが平衡からかなり遠くまで駆動されると、本質的で頑健な断続性を示すマルチスケールの奇妙な引力が発見される。
論文 参考訳(メタデータ) (2023-01-25T04:47:06Z) - Isolation and Impartial Aggregation: A Paradigm of Incremental Learning
without Interference [61.11137714507445]
本稿では,インクリメンタルラーニングの段階におけるパフォーマンスの不均衡について論じる。
ステージアイソレーションに基づくインクリメンタルラーニングフレームワークを提案する。
提案手法を4つの大規模ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-11-29T06:57:48Z) - CPG-RL: Learning Central Pattern Generators for Quadruped Locomotion [4.56877715768796]
本稿では, 集中型パターン生成装置(CPG)を深部強化学習フレームワークに統合し, 頑健な四足歩行を実現する手法を提案する。
シミュレーションでポリシをトレーニングし、Unitree A1の4倍体へのシミュレート・トゥ・リアル転送を行い、トレーニング中に見えない障害に対するロバストな振る舞いを観察する。
論文 参考訳(メタデータ) (2022-11-01T13:41:13Z) - Critically slow operator dynamics in constrained many-body systems [0.0]
一定の制約のある多体システムでは、保存法則の構造が、この普遍的な振る舞いの劇的な修正を引き起こす可能性があることを示す。
動的凍結相から弾道を分離するOTOC前部をサブ弾道移動させた臨界点を同定する。
論文 参考訳(メタデータ) (2021-06-09T18:00:04Z) - Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning [107.70165026669308]
オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーが学習される。
遷移力学が加法的非線形汎関数形式を持つようなマルコフ決定過程について検討する。
そこで本稿では,条件付きモーメント制限の原始的2次元再構成に基づく,証明可能なIVVIアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-19T13:01:40Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z) - Feedback-induced instabilities and dynamics in the Jaynes-Cummings model [62.997667081978825]
時間遅延コヒーレントフィードバックを受けるJaynes-Cummingsモデルのコヒーレンスと定常状態特性について検討する。
導入されたフィードバックは、システムの動的応答と定常量子特性を質的に修正する。
論文 参考訳(メタデータ) (2020-06-20T10:07:01Z) - Cavityless self-organization of ultracold atoms due to the
feedback-induced phase transition [0.0]
このようなフィードバック誘起相転移を持つシステムを提案し,理論的に検討する。
このシステムは、ブラッグ反射型プローブ光の強度に応じてフィードバック制御される深さの光学ポテンシャルに置かれるボース・アインシュタイン凝縮体を含む。
本研究では, 均一ガス分布の安定性が低下し, 周期密度分布が出現するフィードバックゲインに重要な値が存在することを示す。
論文 参考訳(メタデータ) (2020-02-29T06:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。