論文の概要: Composite Gaussian Processes Flows for Learning Discontinuous Multimodal Policies
- arxiv url: http://arxiv.org/abs/2502.01913v1
- Date: Tue, 04 Feb 2025 01:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:53:21.885550
- Title: Composite Gaussian Processes Flows for Learning Discontinuous Multimodal Policies
- Title(参考訳): 不連続多モード政策学習のための複合ガウス過程
- Authors: Shu-yuan Wang, Hikaru Sasaki, Takamitsu Matsubara,
- Abstract要約: 複合ガウスプロセスフロー(英: Composite Gaussian Processes Flows, CGP-Flows)は、ロボット政策のための新しい半パラメトリックモデルである。
CGP-フローは、ガウス過程(OMGPs)と連続正規化流れ(CNFs)の重なり合う混合体を統合する
シミュレーションと実世界のロボットタスクの両方で実施された実験は、CGPフローが制御ポリシーをモデル化する際の性能を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 11.729903146557866
- License:
- Abstract: Learning control policies for real-world robotic tasks often involve challenges such as multimodality, local discontinuities, and the need for computational efficiency. These challenges arise from the complexity of robotic environments, where multiple solutions may coexist. To address these issues, we propose Composite Gaussian Processes Flows (CGP-Flows), a novel semi-parametric model for robotic policy. CGP-Flows integrate Overlapping Mixtures of Gaussian Processes (OMGPs) with the Continuous Normalizing Flows (CNFs), enabling them to model complex policies addressing multimodality and local discontinuities. This hybrid approach retains the computational efficiency of OMGPs while incorporating the flexibility of CNFs. Experiments conducted in both simulated and real-world robotic tasks demonstrate that CGP-flows significantly improve performance in modeling control policies. In a simulation task, we confirmed that CGP-Flows had a higher success rate compared to the baseline method, and the success rate of GCP-Flow was significantly different from the success rate of other baselines in chi-square tests.
- Abstract(参考訳): 実世界のロボットタスクに対する学習制御ポリシーは、多目的性、局所的な不連続性、計算効率の必要性といった課題を伴うことが多い。
これらの課題は、複数のソリューションが共存するロボット環境の複雑さから生じる。
これらの問題に対処するために,ロボット政策のための新しい半パラメトリックモデルである複合ガウスプロセスフロー(CGP-Flows)を提案する。
CGP-Flowsは、OMGP(Overlapping Mixtures of Gaussian Processs)と連続正規化フロー(Continuous Normalizing Flows、CNF)を統合し、マルチモーダルおよび局所不連続性に対処する複雑なポリシーをモデル化する。
このハイブリッドアプローチは、CNFの柔軟性を取り入れつつ、OMGPの計算効率を維持する。
シミュレーションと実世界のロボットタスクの両方で実施された実験は、CGPフローが制御ポリシーをモデル化する際の性能を著しく向上することを示した。
シミュレーション課題では, CGP-Flowsはベースライン法よりも高い成功率を示し, GCP-Flowの成功率は, チ方形試験における他のベースラインの成功率と大きく異なっていた。
関連論文リスト
- Towards safe and tractable Gaussian process-based MPC: Efficient sampling within a sequential quadratic programming framework [35.79393879150088]
本稿では,制約満足度を高い確率で保証する頑健なGP-MPCの定式化を提案する。
提案手法は,既存手法とリアルタイム実現可能な時間に比較して,改良された到達可能集合近似を強調した。
論文 参考訳(メタデータ) (2024-09-13T08:15:20Z) - Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Towards Efficient Modeling and Inference in Multi-Dimensional Gaussian
Process State-Space Models [11.13664702335756]
我々は,高次元潜在状態空間における遷移関数を効率的にモデル化するために,効率的な変換ガウス過程(ETGP)をGPSSMに統合することを提案する。
また,パラメータ数および計算複雑性の観点から,既存の手法を超越した変分推論アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-09-03T04:34:33Z) - Model-free Motion Planning of Autonomous Agents for Complex Tasks in
Partially Observable Environments [3.7660066212240753]
部分的に知られている環境での自律エージェントの動作計画は難しい問題である。
本稿では,モデルのない強化学習手法を提案する。
提案手法は, 環境, 行動, 観測の不確実性に効果的に対処できることを示す。
論文 参考訳(メタデータ) (2023-04-30T19:57:39Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Non-Gaussian Gaussian Processes for Few-Shot Regression [71.33730039795921]
乱変数ベクトルの各成分上で動作し,パラメータを全て共有する可逆なODEベースのマッピングを提案する。
NGGPは、様々なベンチマークとアプリケーションに対する競合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-10-26T10:45:25Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。