論文の概要、ライセンス

# (参考訳) 正規化流れと分布外射影を用いた変分推論mpc [全文訳有]

Variational Inference MPC using Normalizing Flows and Out-of-Distribution Projection ( http://arxiv.org/abs/2205.04667v1 )

ライセンス: CC BY 4.0
Thomas Power and Dmitry Berenson(参考訳) 本研究では,開始,目標,環境に条件づけられた正規化フローを訓練することにより,最適制御列の分布を近似する不定形変分推論を用いた衝突なしナビゲーションのためのモデル予測制御(mpc)法を提案する。 この表現により、ロボットのダイナミクスと複雑な障害物ジオメトリの両方を考慮した分布を学習できる。 この分布からサンプルを抽出し,フローMPPIサンプリングに基づくMPC法の一部として,目標指向と衝突回避の両方が可能な制御シーケンスを生成する。 しかし,本手法をデプロイする場合,ロボットは,トレーニングで使用するものとは大きく異なる,アウト・オブ・ディストリビューション(OOD)環境に遭遇する可能性がある。 このような場合、学習フローは低コストな制御シーケンスを生成するために信頼できない。 また,本手法をOOD環境に一般化するために,MPCプロセスの一部として環境表現を投影する手法を提案する。 このプロジェクションは、真の環境における軌道品質を最適化しながら、環境表現をより分配的に変える。 2次元2次元インテグレータと3次元12DoF不活性化四重極子を用いたシミュレーションの結果,実際のデータから生成されたOOD環境を含む分布内およびOOD環境において,プロジェクションを用いたフローMPPIが最先端のMPCベースラインより優れていることが示唆された。

We propose a Model Predictive Control (MPC) method for collision-free navigation that uses amortized variational inference to approximate the distribution of optimal control sequences by training a normalizing flow conditioned on the start, goal and environment. This representation allows us to learn a distribution that accounts for both the dynamics of the robot and complex obstacle geometries. We can then sample from this distribution to produce control sequences which are likely to be both goal-directed and collision-free as part of our proposed FlowMPPI sampling-based MPC method. However, when deploying this method, the robot may encounter an out-of-distribution (OOD) environment, i.e. one which is radically different from those used in training. In such cases, the learned flow cannot be trusted to produce low-cost control sequences. To generalize our method to OOD environments we also present an approach that performs projection on the representation of the environment as part of the MPC process. This projection changes the environment representation to be more in-distribution while also optimizing trajectory quality in the true environment. Our simulation results on a 2D double-integrator and a 3D 12DoF underactuated quadrotor suggest that FlowMPPI with projection outperforms state-of-the-art MPC baselines on both in-distribution and OOD environments, including OOD environments generated from real-world data.
公開日: Tue, 10 May 2022 04:43:15 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Variational Inference MPC using Normalizing 正規化を用いた変分推論mpc 0.57
Flows and Out-of-Distribution Projection Robotics Institute, University of Michigan, Ann Arbor, MI 48109 流れと分布外射影 ミシガン大学ロボティクス研究所, ann arbor, mi 48109 0.65
Thomas Power and Dmitry Berenson Email: {tpower, dmitryb}@umich.edu thomas powerとdmitry berensonのメール: {tpower, dmitryb}@umich.edu 0.86
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] O R . s c [ ] 略称はR。 sc [ 0.43
1 v 7 6 6 4 0 1 v 7 6 6 4 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract—We propose a Model Predictive Control (MPC) method for collision-free navigation that uses amortized variational inference to approximate the distribution of optimal control sequences by training a normalizing flow conditioned on the start, goal and environment. モデル予測制御 (MPC) 手法を提案し, 初期, 目標, 環境に条件付き正規化フローを訓練することにより, 最適制御シーケンスの分布を近似するために, 補正変分推論を用いた衝突のないナビゲーションを提案する。 0.79
This representation allows us to learn a distribution that accounts for both the dynamics of the robot and complex obstacle geometries. この表現により、ロボットのダイナミクスと複雑な障害物ジオメトリの両方を考慮した分布を学習できる。 0.75
We can then sample from this distribution to produce control sequences which are likely to be both goal-directed and collision-free as part of our proposed FlowMPPI sampling-based MPC method. この分布からサンプルを抽出し,フローMPPIサンプリングに基づくMPC法の一部として,目標指向と衝突回避の両方が可能な制御シーケンスを生成する。 0.83
However, when deploying this method, the robot may encounter an out-of-distribution (OOD) environment, i.e. one which is radically different from those used in training. しかし,本手法をデプロイする場合,ロボットは,トレーニングで使用するものとは大きく異なる,アウト・オブ・ディストリビューション(OOD)環境に遭遇する可能性がある。 0.80
In such cases, the learned flow cannot be trusted to produce low-cost control sequences. このような場合、学習フローは低コストな制御シーケンスを生成するために信頼できない。 0.62
To generalize our method to OOD environments we also present an approach that performs projection on the representation of the environment as part of the MPC process. また,本手法をOOD環境に一般化するために,MPCプロセスの一部として環境表現を投影する手法を提案する。 0.78
This projection changes the environment representation to be more in-distribution while also optimizing trajectory quality in the true environment. このプロジェクションは、真の環境における軌道品質を最適化しながら、環境表現をより分配的に変える。 0.69
Our simulation results on a 2D doubleintegrator and a 3D 12DoF underactuated quadrotor suggest that FlowMPPI with projection outperforms state-of-the-art MPC baselines on both in-distribution and OOD environments, including OOD environments generated from real-world data. 実世界のデータから生成されたOOD環境を含む,2次元2次元積分器と3次元12DoFの不活性化4乗器のシミュレーション結果から,射影を有するフローMPPIは,分布内およびOOD環境の両方において最先端のMPCベースラインより優れていたことが示唆された。 0.52
I. INTRODUCTION I. イントロダクション 0.64
Model predictive control (MPC) methods have been widely used in robotics for applications such as autonomous driving [36], bipedal locomotion [5] and manipulation of deformable objects [25]. モデル予測制御(mpc)法は、自律運転[36]、二足歩行[5]、変形可能な物体の操作[25]など、ロボット工学において広く使われている。 0.68
For nonlinear systems, sampling based approaches for MPC such as the Cross Entropy Method (CEM) and Model Predictive Path Integral Control (MPPI) [15, 36] have proven popular due to their ability to handle uncertainty, their minimal assumptions on the dynamics and cost function, and their parallelizable sampling. 非線形系では, クロスエントロピー法 (CEM) やモデル予測経路積分制御 (MPPI) [15, 36] などの MPC に対するサンプリングに基づくアプローチが, 不確実性, 動的・コスト関数に対する最小仮定, 並列化可能なサンプリングによって広く普及している。 0.84
However, these methods struggle when randomly-sampling low-cost control sequences is unlikely and can become stuck in local minima, for example when a robot must find a path through a cluttered environment. しかし、低コストの制御シーケンスをランダムにサンプリングすることはありそうになく、例えばロボットが散らかった環境を通り抜けなければならない場合のように、局所的なミニマで立ち往生することがある。
訳抜け防止モード: しかし、これらの手法は、ランダムに低コスト制御シーケンスをサンプリングする場合に困難である 地元のミニマで立ち往生し ロボットは 散らかった環境を抜ける道を見つけなければならない
0.70
This problem arises because the sampling distributions used by these methods are not informed by the geometry of the environment. この問題は、これらの方法が使用するサンプリング分布が、環境の幾何に基づかないために生じる。 0.82
Previous work has investigated the duality between control and inference [31, 30] and considered both planning and control as inference problems [2, 33, 27]. 従来の研究では,制御と推論の二重性について検討し,計画と制御を推論問題として検討した[2, 33, 27]。 0.76
Several recent papers have considered the finite-horizon stochastic optimal control problem as Bayesian inference, and proposed methods of performing variational inference to approximate the distribution used to sample control sequences [17, 34, 23, 3]. いくつかの最近の論文では、有限水平確率的最適制御問題をベイズ推定とみなし、サンプル制御列 [17, 34, 23, 3] の分布を近似するために変分推論を行う方法を提案する。 0.80
In order to perform variational inference, we must specify a parameterized distribution which is tractable to optimize and sample while also 変分推論を行うには、最適化やサンプルもできるパラメータ化された分布を指定する必要がある。 0.80
Fig. 1. a,b) Point clouds of two real-world environments taken from the 2D3D-S dataset [1]. 図1。 a) 2D3D-Sデータセット[1]から得られた2つの現実世界環境の点雲。 0.50
c,d) Our method, FlowMPPIProject, controlling a dynamic quadcopter to successfully traverse these two environments. c,d) この手法は, 動的クワッドコプターを制御し, この2つの環境をうまく横断する。 0.72
The executed trajectory is shown in blue, and the planned trajectory is shown in orange at an intermediate point in the execution 実行された軌跡は青で示され、計画された軌跡は実行中の中間点でオレンジで示される 0.87
being flexible enough to provide a good approximation of the true distribution over low-cost trajectories, which may exhibit strong environment-dependen cies and multimodalities. 低コストな軌道上の真の分布を十分に近似できるほど柔軟であることは、強い環境依存性と多様性を示す可能性がある。 0.66
While more complex representations have been used to represent this distribution [17, 23], these distributions are initially uninformed and must be iteratively improved during deployment. この分布を表すために、より複雑な表現が使われている [17, 23] が、これらの分布は最初はインフォームされておらず、デプロイ中に反復的に改善されなければならない。 0.55
Instead, our proposed method uses a normalizing flow to represent this distribution and we learn the parameters for this model from data. その代わり,提案手法では正規化フローを用いて分布を表現し,そのモデルのパラメータをデータから学習する。 0.87
The advantage of this approach is that it will learn to sample control sequences which are likely to be both goaldirected and collision-free (i.e. low-cost) for the given system. このアプローチの利点は、与えられたシステムに対して目標指向と衝突のない(すなわち低コスト)可能性がある制御シーケンスをサンプリングすることを学ぶことである。 0.81
We use the learned distribution as part of our proposed FlowMPPI sampling-based MPC method. 提案するflowmppiサンプリングに基づくmpc法の一部として,学習分布を用いた。 0.68
This method samples perturbations to a nominal trajectory in both the latent space of the flow and the space of control sequences. この方法は、フローの潜在空間と制御シーケンスの空間の両方において、名目軌道への摂動をサンプリングする。 0.68
However, as is common in machine learning, a learned model cannot be expected to produce reliable results when its input is radically different from the training data. しかし、機械学習でよく見られるように、入力がトレーニングデータと根本的に異なる場合、学習モデルは信頼できる結果を生み出すことが期待できない。 0.78
Because the space of possible environments is very high-dimensional, we cannot hope to generate enough training data to cover the set of possible environments a robot could encounter. 可能な環境の空間は非常に高次元であるため、ロボットが遭遇する可能性のある環境の集合をカバーする十分なトレーニングデータを生成することはできない。 0.79
This problem compounds when we generate training data in simulation, but the method must be deployed in the real-world (i.e. the sim2real この問題はシミュレーションでトレーニングデータを生成すると複雑になるが、その方法は現実世界(すなわちsim2real)に展開する必要がある。 0.70
英語(論文から抽出)日本語訳スコア
problem). Thus, when deploying this method, the robot may encounter an out-of-distribution (OOD) environment, i.e. one which is radically different from those used in training. 問題) このようにして、この方法をデプロイすると、ロボットは、トレーニングで使用されるものと根本的に異なる分散(ood)環境に遭遇する可能性がある。 0.60
In such cases, the learned distribution in unlikely to produce low-cost control sequences. このような場合、学習した分布は低コストな制御シーケンスを生成できない。 0.67
To generalize our method to OOD environments we present an approach that performs projection on the representation of the environment as part of the MPC process. 本手法をood環境に一般化するために,我々はmpcプロセスの一部として環境表現を投影する手法を提案する。 0.77
This projection changes the environment representation to be more in-distribution while also optimizing trajectory quality in the true environment. このプロジェクションは、真の環境における軌道品質を最適化しながら、環境表現をより分配的に変える。 0.69
In essence, this method “hallucinates” an environment that is more familiar to the normalizing flow so that the flow produces reliable results. 本質的に、この手法は、フローが信頼できる結果を生み出すように、正規化フローに精通した環境を“幻滅”する。 0.57
However, the key insight behind our projection method is that the “hallucinated” environment cannot be arbitrary, it should be constrained to preserve important features of the true environment for the MPC problem at hand. しかし,提案手法の背景にある重要な知見は,「幻覚的」な環境は任意ではなく,手元にあるmpc問題の真の環境の重要な特徴を維持するよう制約されるべきである。 0.79
For example, consider a navigation problem for a 2D point robot, shown in Figure 5. 例えば、図5に示す2Dポイントロボットのナビゲーション問題を考える。 0.66
If the normalizing flow is trained only on environments consisting of disc-shaped obstacles, an environment with a corridor would be OOD and the flow would be unlikely to produce low-cost trajectories. 円盤状の障害物からなる環境のみに正規化フローが訓練された場合、廊下のある環境はOODであり、フローは低コストな軌道を作る可能性は低い。
訳抜け防止モード: 円盤状障害物からなる環境にのみ正規化フローが訓練される場合 廊下のある環境はOODであり、流れは低コストの軌道を作る可能性は低い。
0.74
However, if we morph the environment to approximate the corridor near the robot with disc-shaped obstacles (producing an in-distribution environment), the flow will then produce low-cost samples for MPC. しかし,ロボット近傍の廊下に円盤状の障害物(分布内環境を発生させる)を近似するために環境を変形させると,流れはMPCの低コストなサンプルを生成する。 0.79
Our simulation results on a 2D double-integrator and a 3D 12DoF underactuated quadrotor suggest that FlowMPPI with projection outperforms state-of-the-art MPC baselines on both in-distribution and OOD environments, including OOD environments generated from real-world data (Figure 1). 2次元ダブルインテグレータと3次元12dofの未作動クアドロターのシミュレーション結果から,実世界データから生成されたood環境を含む分散環境とood環境の両方において,プロジェクションを伴うflowmppiが最先端のmpcベースラインよりも優れていることが示唆された(図1)。 0.55
The contributions of this paper are: • A method to learn an environment-dependen t samplingdistribution of low-cost control sequences using a Normalizing Flow 本論文のコントリビューションは、 • 正規化フローを用いた低コスト制御系列の環境依存サンプリング分布の学習方法である。 0.79
• FlowMPPI - A method that computes a low-cost control sequence by sampling perturbations to a nominal control sequence in both the latent space of the learned normalizing flow and the space of control sequences • FlowMPPI - 学習正規化フローの潜時空間と制御シーケンスの空間の両方において、名目制御シーケンスに摂動をサンプリングすることで、低コストな制御シーケンスを計算する方法 0.91
• A projection method which changes the environment representation to be more in-distribution while preserving important features of the environment for the MPC problem at hand •MPC問題における環境の重要特徴を保存しつつ、環境表現をより非流通的に変化させるプロジェクション法 0.79
• Experiments showing the efficacy of our method on both in-distribution and OOD environments for planar navigation and 12DoF quadrotor tasks, including environments generated from real-world data • 実世界のデータから生成された環境を含む平面ナビゲーションおよび12DoF四重項タスクにおける分布内環境とOOD環境の両方に対する本手法の有効性を示す実験
訳抜け防止モード: • 平面ナビゲーションと12dofクアドロタータスクのin-distributionとood環境における本手法の有効性を示す実験。 実世界データから生成された環境を含む
0.75
A. Planning & Control as Inference A. 推論としての計画と制御 0.77
II. RELATED WORK The connection between control and inference is long established [11, 31, 30]. II。 関連作業 制御と推論の関連は長く確立されています [11, 31, 30]。 0.70
Attias [2] first framed planning as an inference problem, and proposed a tractable inference algorithm for discrete state and action spaces. attias [2] は推論問題として最初に計画を立て、離散状態と作用空間の扱いやすい推論アルゴリズムを提案した。 0.73
Further work has used inference techniques for planning [20, 21] and Stochastic Optimal Control (SOC) [33, 27, 35]. さらなる研究は [20, 21] と Stochastic Optimal Control (SOC) [33, 27, 35] の計画に推論技術を用いた。 0.84
Two widely used sampling based 広く使われている2つのサンプリング 0.57
MPC techniques, MPPI [36] and CEM [15], use importance sampling to generate low-cost control sequences, and have strong connections to the inference formulation of SOC which was explored in [34]. MPC技術,MPPI [36] と CEM [15] は,低コストな制御シーケンスを生成するために重要サンプリングを使用し,[34] で探索された SOC の推論定式化に強く関連している。 0.83
Several recent papers have considered the SOC problem as Bayesian inference, and proposed methods of performing Variational Inference (VI) to approximate a posterior over low-cost control sequences [17, 34, 23, 3]. 近年のいくつかの論文では、SOC問題をベイズ推定とみなし、低コスト制御シーケンス [17, 34, 23, 3] よりも後方を近似する変分推論 (VI) を実行する方法が提案されている。 0.70
These methods differ in how they represent the variational posterior. これらの方法は変分後部の表現方法が異なる。 0.74
VI methods often use an independent Gaussian posterior, known as the mean-field approximation [4]. VI法は平均場近似として知られる独立ガウス後方法を用いることが多い[4]。 0.78
Okada and Taniguchi [23] represent the control sequence as a Gaussian mixture, and Lambert et al [17] use a particle representation, extended to handle parameter uncertainty in [3]. 岡田と谷口 [23] は制御列をガウス混合として表現し、lambertら[17] は [3] のパラメータの不確かさを扱うために拡張された粒子表現を用いる。 0.76
These representations allow for greater flexibility in representing complex posteriors. これらの表現は、複雑な後続表現の柔軟性を高める。 0.58
We will similarly use a flexible class of distributions to represent the posterior, but will further make the posterior dependent on the start, goal, and environment. 同様に、後方を表すために柔軟な分布のクラスを用いるが、後続のクラスはスタート、ゴール、環境にさらに依存させる。 0.63
To our knowledge our approach is the first to amortize the cost of computing this posterior by learning a conditional control sequence posterior from a dataset. 我々の知る限り、私たちのアプローチはデータセットから条件制御シーケンスを後から学習することで、この後部計算のコストを最初に減らしたものです。 0.66
B. Learning sampling distributions for planning B. 計画のための学習サンプリング分布 0.88
Our work is related to work learning sampling distributions from data for motion planning. 我々の研究は、動き計画のためのデータから分布をサンプリングする作業の学習に関連している。 0.56
Zhang et al [39] proposed learning a sampling distribution that is trained across multiple environments, but is independent of the environment. Zhang氏らは、複数の環境にまたがってトレーニングされるが、環境に依存しないサンプリング分布の学習を提案した。 0.76
Others have proposed learning a sampling distribution which is dependent on the environment, start and goal [10, 26]. 他にも,環境,開始,目標に依存するサンプリング分布の学習を提案している[10,26]。 0.82
These methods were restricted to geometric planning, but Li et al [18] proposed an approach for kinodynamic planning which learns a generator and discriminator which are used to sample states that are consistent with the dynamics. これらの手法は幾何学的計画に制限されていたが、li et al [18] は力学と一致する状態のサンプルに使用される生成器と判別器を学習するキノダイナミック計画へのアプローチを提案した。 0.72
Recent work by Lai et al [16] uses a diffeomorphism to learn the sampling distribution; a model that is similar to a normalizing flow. Lai et al [16] による最近の研究は、拡散同相法を用いてサンプリング分布(正規化フローに似たモデル)を学ぶ。 0.77
The model we propose will also learn to generate samples conditioned on the start, goal and environment, though in this work we are considering online MPC and not offline planning. 提案するモデルは、開始、目標、環境に条件付きサンプルを生成することも学べるが、この作業ではオンラインMPCを検討中であり、オフラインプランニングは行わない。 0.68
Loew et al [19] uses probabilistic movement primitives (ProMPs) learned from data as the sampling distribution for samplebased trajectory optimization, however the representation of these ProMPs only allows for uni-modal distributions and the sampling distribution is not dependent on the environment. Loew et al [19] は、サンプルベース軌道最適化のためのサンプリング分布としてデータから学習した確率的運動プリミティブ(ProMP)を用いるが、これらのProMPの表現は、一様分布のみを許容し、サンプリング分布は環境に依存しない。 0.80
Adaptive and learned importance samplers have been used for sample-based MPC [12, 6], but these methods only consider a single control problem and the learned samplers do not generalize to different goals & environments. サンプルベースMPC [12, 6] では適応的, 学習的重要性のサンプルが用いられてきたが, これらの手法は単一制御の問題のみを考慮し, 学習されたサンプルは異なる目標や環境に一般化しない。 0.70
III. PROBLEM STATEMENT This paper focuses on the problem of Finite-horizon Stochastic Optimal Control. III。 問題声明 本稿では,有限水平確率最適制御の問題に焦点をあてる。 0.54
We consider a discrete-time system with state x ∈ Rdx and control u ∈ Rdu and known transition probability p(xt+1|xt, ut). 状態 x ∈ Rdx と制御 u ∈ Rdu と既知の遷移確率 p(xt+1|xt, ut) を持つ離散時間系を考える。 0.82
We define finite horizon trajectories with horizon T as τ = (X, U ), where X = {x0, x1, ...xT} and U = {u0, u1, ...uT−1}. 地平線 T を τ = (X, U ) とし、X = {x0, x1, ...xT} と U = {u0, u1, ...uT−1} と定義する。 0.80
Given an initial state x0, a goal state xG, and a signeddistance field (SDF) of the the environment E, our ob- 初期状態 x0 と目標状態 xg と、環境 e の符号付き距離場 (sdf) が与えられたとき、我々の ob- 0.81
英語(論文から抽出)日本語訳スコア
(cid:81)T−1 jective is to find U which minimizes the expected cost Ep(X|U )[J(τ )] for a given cost function J, where p(X|U ) = t=0 p(xt+1|xt, ut). (cid:81)T−1 は与えられたコスト関数 J に対する期待コスト Ep(X|U )[J(τ )] を最小化する U を見つけることであり、p(X|U ) = t=0 p(xt+1|xt, ut) である。 0.79
Note that we will use J to mean both the cost on the total trajectory J(τ ) and the cost of an individual state action pair J(x, u). J は全軌跡 J(τ) のコストと個々の状態作用対 J(x, u) のコストの両方を意味することに注意しよう。 0.72
This paper focuses on the problem of collision-free navigation, where J is parameterized by (xG, E). 本稿では,J を (xG, E) でパラメータ化する衝突フリーナビゲーションの問題に焦点をあてる。 0.80
This problem is difficult to solve in the general case because the mapping from environments to collision-free U can be very complex and depends on the dynamics of the system. この問題は、環境から衝突のないuへのマッピングが非常に複雑で、システムのダイナミクスに依存するため、一般的な場合では解決が難しい。 0.75
To aid in finding U, we assume access to a dataset D = {E, x0, xG}N , which will be used to train our method for a given system. U を見つけるのに役立つために、データセット D = {E, x0, xG}N へのアクセスを仮定する。
訳抜け防止モード: u を見つけるのを助ける データセット d = { e, x0,} へのアクセスを仮定する。 xg}n – 与えられたシステムのメソッドをトレーニングするために使用される。
0.74
We will evaluate our method in terms of its ability to reach the goal without colliding and the cost of the executed trajectory. 本手法は,衝突することなく目標を達成する能力と,実行された軌道のコストの観点から評価する。 0.76
Moreover, we wish to solve this problem very quickly (i.e. inside a control loop), which limits the amount of computation that can be used. さらに、我々はこの問題を非常に迅速に(つまり制御ループ内で)解決し、利用可能な計算量を制限することを望んでいる。 0.82
IV. PRELIMINARIES IV。 プレリミナリス 0.43
A. Variational Inference for Stochastic Optimal Control 確率的最適制御のための変分推論 0.68
We can reformulate SOC as an inference problem (as in [27, 32, 23, 17]). SOC を推論問題([27, 32, 23, 17] のように)として再構成することができる。 0.78
First, we introduce a binary ‘optimality’ random variable o for a trajectory such that まず、軌道に対する二項の「最適」確率変数 o を導入する。 0.63
p(o = 1|τ ) ∝ exp (−J(τ )) p(o = 1|τ ) = exp (−J(τ )) 0.47
(1) We place a prior p(U ) on U, resulting in a prior on τ, p(τ ) = p(X|U )p(U ) and aim to find posterior distribution p(τ|o = 1) ∝ p(o = 1|τ )p(τ ). (1) 事前の p(u ) を u に置き、その結果 τ, p(τ ) = p(x|u )p(u ) に前置し、後続分布 p(τ|o = 1) となる p(o = 1|τ )p(τ ) を求める。 0.62
In general, this posterior is intractable, so we use variational inference to approximate it with a tractable distribution q(τ ) which minimizes the KLdivergence KL(q(τ )||p(τ|o = 1)) [4]. 一般に、この後部は引き込み可能であり、変分推論を用いて、KL偏差KL(q(τ))||p(τ|o = 1)) [4] を最小化する、引き込み可能な分布 q(τ) と近似する。 0.76
Since we define the trajectory by selecting the controls, the variational posterior factorizes as p(X|U )q(U ). 制御を選択して軌道を定義するので、変分後微分は p(X|U )q(U ) となる。 0.65
Thus, we must compute an approximate posterior over control sequences. したがって、後続の制御シーケンスを近似的に計算しなければならない。 0.60
The quantity to be minimized is (cid:90) 最小化すべき量は (cid:90) 0.56
KL (q(τ )||p(τ|o = 1)) = KL (q(τ )||p(τ|o = 1)) = 0.46
q(τ ) log = q(τ ) ログ = 0.60
q(X, U ) log q(x, u) ログ 0.71
p(X|U )q(U )p(o = 1) p(X|U )q(U )p(o = 1) 0.48
p(o = 1|X, U )p(X|U )p(U ) p(o = 1|X, U )p(X|U )p(U ) 0.48
q(τ ) p(τ|o = 1) q(τ) である。 p(τ|o = 1) 0.53
dτ (2) dXdU dτ (2) dXdU 0.41
(cid:90) Simplifying and omitting terms that do not depend on τ yields the variational free energy (cid:90) τに依存しない項の単純化と省略は変動自由エネルギーをもたらす 0.62
F = −Eq(τ )[log p(o|τ ) + log p(U )] − H(q(U )) F = −Eq(τ )[log p(o|τ ) + log p(U )] − H(q(U )) 0.46
(3) Where H(q(U ) is the entropy of q(U ). (3) ここで h(q(u)) は q(u) のエントロピーである。 0.76
Intuitively, we can understand that the first term promotes low-cost trajectories, the second is a regularization on the control, and the entropy term prevents the variational posterior collapsing to a maximum a posteriori (MAP) solution. 直観的には、第1項は低コストな軌跡を促進し、第2項は制御の正規化であり、第2項はエントロピー項は最大アフターイ(MAP)解への変動後崩壊を防ぐ。 0.74
Note that log p(U ) can be appropriately combined with the cost, i.e. a Gaussian prior can be incorporated as a squared cost on the control, so will be omitted for the rest of the paper. 注意すべき点は、log p(u ) はコストと適切に結合することができ、すなわちガウス前処理は制御上の二乗コストとして組み込むことができ、残りの論文では省略される。 0.71
B. Variational Inference with Normalizing flows B.正規化流を伴う変分推論 0.67
Normalizing flows are bijective transformations that can be used to transform a random variable from some base distribution (i.e. a Gaussian) to a more complex distribution [28, 8, 14]. 正規化フローは、ある基底分布(すなわちガウス分布)からより複雑な分布 [28, 8, 14] への確率変数の変換に使用できる単射変換である。 0.79
Consider a random variable z ∈ Rd and with known pdf p 確率変数 z ∈ Rd と既知の pdf p を考える。 0.79
(z). Let us define a bijective function f : Rd → Rd and a random variable y such that y = f (z)。 単射関数 f : Rd → Rd と y = f となる確率変数 y を定義する。 0.51
(z) and z = f−1 (z) と z = f−1 0.93
(y). According to the change of variable formula, we can define p (y)。 変数式の変化により p を定義することができる。 0.60
(y) in terms of p (z) as follows: (y)pの意味で (z)下記の通り。 0.68
p(x) = p(z) p(x) = p(z) 0.42
∂f ∂z log p ∂f ∂z log p 0.42
(y) = log p (y) = log p 0.43
(z) − log (cid:12)(cid:12)(cid :12)(cid:12)det (z)−ログ (cid:12)(cid:12)(cid :12)det 0.53
(cid:12)(cid:12)(cid :12)(cid:12)−1 (cid:12)(cid:12)(cid :12)(cid:12)det (cid:12)(cid:12)(cid :12)(cid:12)−1(cid:12)(cid:12)(ci d:12)(cid:12)det 0.36
(cid:12)(cid:12)(cid :12)(cid:12) (cid:12)(cid:12)(cid :12) 0.47
∂f ∂z (4) (5) ∂f ∂z (4) (5) 0.40
Normalizing flows can be used as a parameterization of the variational posterior [28]. 流れの正規化は変分後 [28] のパラメータ化として使うことができる。 0.76
By selecting a base PDF p 基本 pdf p を選択することで 0.77
(z) and a family of parameterized functions fθ, we specify a potentially complex set of possible densities qθ (z) とパラメータ化された関数 fθ の族は、可能な密度 qθ の複素集合を指定できる。 0.72
(y). Suppose that we want to approximate some distribution p (y)。 ある分布 p を近似したいとする。 0.55
(y) with some distribution qθ (y)ある分布 qθ を持つ 0.87
(y). The variational objective is to minimize KL(qθ (y)。 変分の目的はKL(qθ)を最小化することである 0.49
(y)||p (y)). (y)|p (y)。 0.40
This is equivalent to: これは以下のとおりである。 0.52
(cid:90) KL (qθ (cid:90) KL(qθ) 0.39
(y)||p (y)) = qθ (y)|p (y) = qθ 0.44
(y) log = Eqθ (y) log = Eqθ 0.49
(y)[log qθ (y)[log qθ] 0.47
(y) − log p (y) − log p 0.42
(y)] = Ep (z) (y)] = Ep (z) 0.39
log p(z) − log log (複数形 logs) 0.52
(cid:20) (cid:12)(cid:12)(cid :12)(cid:12)det (cid:20) (cid:12)(cid:12)(cid :12)det 0.43
∂fθ ∂z qθ(y) p(y) ∂fθ ∂z qθ(y) p(y) 0.38
dx (cid:12)(cid:12)(cid :12)(cid:12) − log p(y) dx (cid:12)(cid:12)(cid :12)(cid:12) − log p(y) 0.42
(cid:21) (6) (出典:21) (6) 0.55
Thus we can optimize the parameters θ of the bijective transform fθ in order to minimize the variational objective. したがって、変動目標を最小化するために、単射変換 fθ のパラメータ θ を最適化することができる。 0.74
We will use a normalizing flow to represent the control sequence posterior in our method. 本手法では,制御列の後方を正規化フローで表現する。
訳抜け防止モード: 私たちは正規化フローを使用します 制御シーケンスを 後から表現するために
0.78
V. METHODS Our proposed architecture for learning an MPC sampling distribution is shown in Figure 2. V.方法 MPCサンプリング分布を学習するためのアーキテクチャを図2に示す。 0.67
In this section we first introduce how we represent and learn the control sequence posterior as a Normalizing Flow, and train over a dataset consisting of starts, goals and environments to produce a sampling distribution for control sequences. 本節では、まず、制御シーケンスを正規化フローとして表現し、学習し、開始、目標、および環境からなるデータセットを訓練し、制御シーケンスのサンプリング分布を作成する方法を紹介する。 0.74
Next, we show how this sampling distribution can be used to improve MPPI, a sampling based MPC controller. 次に、サンプリングベースMPCコントローラであるMPPIを改善するために、このサンプリング分布をどのように利用できるかを示す。 0.63
Finally, we describe an approach for adapting the learned sampling distribution to novel environments which are outside the training distribution. 最後に、学習したサンプリング分布をトレーニング分布外の新しい環境に適用するためのアプローチについて述べる。 0.86
A. Overview of Learning the Control Sequence Posterior A.制御シーケンス後処理の学習の概観 0.83
The control sequence posterior introduced in section IV-A is specific to each MPC problem. iv-a節に導入された制御シーケンスは、各mpc問題に特異的である。 0.55
Our approach is to use dataset D to learn a conditional control sequence posterior q(U|x0, xG, E). 我々のアプローチは、データセットDを用いて条件制御シーケンス後q(U|x0, xG, E)を学習することである。 0.70
We will use a Conditional Normalizing Flow [37] to represent this conditional posterior as qζ(U|C). 条件正規化フロー [37] を用いて、この条件後部を q (U|C) とする。 0.76
C is the context vector which we compute as follows: First, we input E into the encoder of a Variational Autoencoder (VAE) [13] to produce a distribution over environment embeddings h. まず、E を変分オートエンコーダ (VAE) [13] のエンコーダに入力し、環境埋め込み h 上の分布を生成する。
訳抜け防止モード: C は次のように計算する文脈ベクトルである まず、変分オートエンコーダ(VAE)[13]のエンコーダにEを入力する。 環境埋め込みの分布を 生み出します
0.68
We then sample from this distribution to produce an h. この分布からサンプルを採取して h を生成する。 0.78
A neural network gω then produces C from (x0, xG, h) (Figure 2). ニューラルネットワークgωは、(x0, xG, h) から C を生成する(図2)。 0.84
英語(論文から抽出)日本語訳スコア
Fig. 2. The architecture of our method for sampling control sequences. 図2。 制御シーケンスをサンプリングする手法のアーキテクチャについて検討する。 0.59
We take as input initial and goal states x0, xG, and the environment, converted to a signed distance field E. E is input into a VAE to produce a latent distribution qθ(h|E), which we sample to get the environment embedding h. 入力初期および目標状態 x0, xG, そして環境を符号付き距離場 E に変換し、E をVOE に入力して潜在分布 qθ(h|E) を生成する。
訳抜け防止モード: 入力初期およびゴール状態 x0, xG, そして、署名された距離フィールドEに変換された環境は、VAEに入力される。 潜在分布 qθ(h|E) を生成する の環境を埋め込むためにサンプルを採取した。
0.83
This h is used, along with x0 and xG as input to the network gω to produce a context vector C. C, along with a sample from a Gaussian distribution Z, is input into the conditional normalizing flow fζ to produce a control sequence U. During training only, we use a decoder to reconstruct the SDF from h as part of the loss. このh は、ネットワーク gω への入力として x0 と xG とともに、文脈ベクトル C を生成する。C は、ガウス分布 Z からのサンプルとともに、条件正規化フロー fa に入力され、制御シーケンス U を生成する。
訳抜け防止モード: このhは、ネットワークgωへの入力としてx0、xGとともに使用され、文脈ベクトルC.Cを生成する。 ガウス分布 Z からのサンプルと共に条件正規化フロー f に入力される 訓練中のみに制御シーケンスを生成する 私たちはデコーダを使い 損失の一部としてhからSDFを再構築する。
0.84
We also use a normalizing flow prior for the VAE to compute an OOD score for a given h, which is necessary to perform projection. VAEに先立って正規化フローを使用して与えられたhに対するOODスコアを計算し、プロジェクションを実行するのに必要となる。 0.72
Essentially C is a representation of what is important about the start, goal, and environment for generating low-cost trajectories. 基本的にCは、低コストの軌道を生成するためのスタート、ゴール、環境において重要なことを表現している。
訳抜け防止モード: 本質的に c は コストの低い軌道を生成するための出発点、目標、環境において重要である。
0.76
The above models are trained on the dataset D, which consists of randomly sampled starts, goals and simulated environments. 上記のモデルはデータセットdでトレーニングされ、ランダムにサンプルされた開始、目標、シミュレーションされた環境で構成されている。 0.63
To train the system we iteratively generate samples from the control sequence posterior, weigh them by their cost, and perform a gradient step on the parameters of our models to maximize the likelihood of low-cost trajectories. システムをトレーニングするには,制御シーケンスの後方からサンプルを反復的に生成し,そのコストで重み付けし,モデルパラメータの勾配ステップを実行し,低コストな軌道の可能性を最大化する。 0.84
At inference time, we simply compute C and generate control sequence samples from qζ(U|C). 推論時には、単純にC を計算し、q (U|C) から制御シーケンスのサンプルを生成する。 0.70
Below we describe each component of the method to learn qζ(U|C) in detail. 以下に、この方法のそれぞれの成分を詳細に記述し、q'(U|C) を学習する。 0.62
B. Representing the start, goal and environment as C ロ 開始、目標及び環境をCとして表すこと。 0.68
As discussed, our dataset D consists of environments, starts and goals. 前述のように、データセットDは環境、開始、目標で構成されています。 0.58
The details of the dataset generation for each task can be found in section VI-A. 各タスクのデータセット生成の詳細は、セクションVI-Aで確認できる。 0.75
Since the environment is a high dimensional SDF, we must first compress it to make it computationally tractable to train the control sequence posterior. 環境は高次元のSDFなので、まずそれを圧縮して、後続の制御シーケンスを訓練できるようにしなければなりません。
訳抜け防止モード: 環境は高次元SDFであるため、まず圧縮する必要がある。 後続の制御シーケンスを 計算的に訓練できるようにするためです
0.75
To encode the environment, we use a VAE with environment embedding h. 環境をエンコードするには、環境を埋め込んだVAEを使用します。 0.69
The VAE consists of an encoder qθ(h|E), which is a Convolutional Neural Network (CNN) that outputs the parameters of a Gaussian. VAEは、ガウスのパラメータを出力する畳み込みニューラルネットワーク(CNN)であるエンコーダqθ(h|E)で構成されている。 0.79
The decoder is a transposed CNN which produces the reconstructed SDF ˆE from h. デコーダ(decoder)は、hから再構成されたSDF shEを生成する変換CNNである。 0.56
The decoder log-likelihood pψ(E|h) is || ˆE − E||2, where ψ are the parameters of the decoder CNN. 復号子対数 p (E|h) は ||E − E||2 であり、ここで は復号子 CNN のパラメータである。
訳抜け防止モード: 復号子対 (decoder log) は || E − E||2 である。 はデコーダCNNのパラメータである。
0.78
Chen et al [7] showed that learning a latent prior can improve VAE performance, so we parameterize the latent prior pφ(h) as a normalizing flow and learn the prior during training. Chenら[7]は、潜伏前の学習がVAE性能を向上させることを示し、潜伏前のpφ(h)を正規化フローとしてパラメータ化し、訓練中に事前学習する。 0.68
The loss for the VAE is as follows: LV AE = Eqθ(h|E) [− log pψ(E|h)] + KL(qθ(h|E)||pφ(h)) = Eqθ(h|E) [− log pψ(E|h) + log qθ(h|E) − log pφ(h))] VAEの損失は次の通りである: LV AE = Eqθ(h|E) [− log p\(E|E)] + KL(qθ(h|E)||pφ(h)) = Eqθ(h|E) [− log p\(E|h) + log qθ(h|E) − log pφ(h))] 0.46
(7) We then use a Multilayer Perceptron (MLP) network gω to generate a context vector C to use in the normalizing flow, via C = gω(x0, xG, h), which has parameters ω. (7)次に、多層パーセプトロン(mlp)ネットワークgωを用いて、パラメータωを持つc = gω(x0, xg, h)を介して、正規化フローで使用するコンテキストベクトルcを生成する。 0.79
C. Learning qζ(U|C) We use a conditional normalizing flow parameterized by ζ to define the conditional variational posterior, i.e. qζ(U|C) is defined by U = fζ(Z, C) for Z ∼ p(Z) = N (0, I). C. 学習 q (U|C) 変数化された条件正規化フローを用いて条件変分後部を定義する。すなわち、q (U|C) は Z > p(Z) = N (0, I) に対して U = f (Z, C) で定義される。 0.83
The variational free energy 3 then becomes: 変分自由エネルギー3は次のようになる。 0.72
F = −Eq(τ ) [log p(o|τ )] + F = −Eq(τ ) [log p(o|τ )] + 0.49
Ep(Z) log p(Z) − log Ep(Z) log (複数形 logs) 0.67
(cid:20) (cid:12)(cid:12)(cid :12)(cid:12)det (cid:20) (cid:12)(cid:12)(cid :12)det 0.43
(cid:12)(cid:12)(cid :12)(cid:12)(cid:21) (cid:12)(cid:12)(cid :12)(cid:21) 0.44
∂fζ(Z, C) ∂f_(z, c) である。 0.64
∂Z (8) We can then optimize ζ to minimize the free energy. ∂z (8) すると、自由エネルギーを最小化するために最適化できる。 0.49
By using a conditional normalizing flow, we are amortizing the cost of computing the posterior across environments. 条件付き正規化フローを使用することで、環境を越えた後部計算のコストを償却する。 0.74
The conditional normalizing flow U = fζ(Z, C) is invertible with respect to Z, i.e. Z = f−1(U, C). 条件正規化フロー U = f (Z, C) は Z に対して可逆的、すなわち Z = f−1(U, C) である。 0.86
For our conditional Normalizing Flow we use an architecture based on Real-NVP [8] architecture with conditional coupling layers [37], the structure is specified in section VI-C. 条件付き正規化フローでは、条件付き結合層[37]を持つReal-NVP[8]アーキテクチャに基づくアーキテクチャを使用し、その構造をセクションVI-Cで指定します。 0.73
Minimizing eq. (8) via gradient descent requires the cost and dynamics to be differentiable. eq の最小化。 (8)勾配降下により、コストとダイナミクスは微分可能である必要がある。 0.66
To avoid this, we estimate gradients, using the method in [23]: At each iteration, we sample R control sequences U1.. これを避けるために,[23] の手法を用いて勾配を推定する: 各反復において, R 制御シーケンス U1 をサンプリングする。 0.83
R from qζ(U|C) and compute weights U|C) からの R と計算重量 0.79
(cid:80)R qζ(Ui|C)−βp(o|τi) 1 j=1 qζ(Uj|C)−βp(o|τj) 1 (落語:80)R q'(Ui|C)−βp(o|τi)1j=1 q'(Uj|C)−βp(o|τj)1 0.29
α 1 R wi = (9) where p(o|τ ) = exp(−J(τ )). α 1R wi = (9) ここで、p(o|τ) = exp(−J(τ))。 0.51
These weights represent a tradeoff between low-cost and high entropy control sequences controlled by hyperparameters α and β. これらの重みは、高パラメータαとβで制御される低コストと高エントロピー制御配列のトレードオフを表す。 0.62
The weights and particles {U1.. 重みと粒子 {u1. 0.74
R, w1.. R} effectively approximate a posterior which is closer to the optimal q(U|C). R, w1。 R} は、最適 q(U|C) に近い後方を効果的に近似する。 0.81
At each iteration of training, we take one gradient step to maximize the likelihood of U1.. トレーニングの各イテレーションでは、U1の可能性を最大化するために、1つの勾配のステップを踏む。
訳抜け防止モード: 訓練の反復ごとに 1つの勾配ステップを踏むと u1の可能性を最大化する。
0.72
R weighted by w1.. R, then resample a new set U1.. 重量はw1。 R、次に新しい集合 U1 を再サンプリングする。 0.57
R. The flow training loss for this iteration is R。 このイテレーションにおけるフロートレーニングの損失は 0.61
α wi log qζ(Ui|C) α wi log (複数形 wilogs) 0.56
(10) Lf low = − R(cid:88) (10) Lf low = − R(cid:88) 0.45
i=1 i=1 である。 0.31
英語(論文から抽出)日本語訳スコア
This process is equivalent to performing mirror descent on the variational free energy, see [23] for a full derivation. この過程は変分自由エネルギーのミラー降下と等価であり、完全な導出については [23] を参照。 0.74
In practice, when sampling U1.. 実際には、u1をサンプリングするとき 0.51
R from qζ(U|C) we add an additional Gaussian perturbation to the samples, decaying the magnitude of the perturbation during training. R から q (U|C) から、サンプルにさらにガウス摂動を加え、訓練中の摂動の大きさを減衰させる。 0.62
While this means we are no longer performing gradient descent on F exactly, we found that this empirically improved exploration during training. これは、もはやFの勾配降下を正確に行っていないことを意味するが、これは訓練中の探索を経験的に改善することを発見した。 0.52
To train the parameters of our system we perform the following optimization via stochastic gradient descent: Lf low + aLV AE システムのパラメータをトレーニングするために,確率勾配勾配による次の最適化を行う: Lf Low + aLV AE 0.85
(11) for scalar a ≥ 0. (11) をスカラー a ≥ 0 とする。 0.86
We use a combined loss and train end-toend so that h is explicitly trained to be used to condition the control sequence posterior. 我々は、制御シーケンスの後方を条件付けるためにhを明示的に訓練するために、損失とエンドツーエンドを併用する。 0.62
We then continue training the control sequence posterior with a fixed VAE with the following optimization: 次に、固定されたVAEで後続制御シーケンスをトレーニングし、以下の最適化を行う。 0.65
θ,φ,ψ,ω,ζ min θ,φ,ψ,ω,ζ ミン 0.46
D. FlowMPPI D. FlowMPPI 0.44
min ω,ζ min (複数形 mins) 0.45
Lf low (12) We present a method for using the learned control sequence posterior for a control task. Lf低位 (12) 本稿では、学習した制御シーケンスを制御タスクに使用する方法を提案する。 0.66
Given a C computed from (x0, xG, E), the control sequence posterior qζ(U|C) can be used as a sampling distribution in a sampling-based MPC approach. x0, xg, e から計算された c が与えられたとき、サンプリングベースの mpc アプローチでは、制御シーケンスの後方 q をサンプリング分布として用いることができる。
訳抜け防止モード: 与えられた C は (x0, xG, E ) から計算される 後続 q (U|C ) はサンプリング-ベース MPC アプローチにおけるサンプリング分布として使用できる。
0.83
We propose a method for using the control sequence posterior with MPPI [36], which we term FlowMPPI (Algorithm 1). 本稿では,フローMPPI (Algorithm 1) と呼ぶMPPI[36]による制御シーケンスの後方利用法を提案する。 0.81
MPPI iteratively perturbs a nominal control sequence with Gaussian noise and performs a weighted sum of the perturbations to find a new control sequence. MPPIはガウス雑音による名目制御シーケンスを反復的に摂動し、新しい制御シーケンスを見つけるために摂動の重み付け和を実行する。 0.76
Empirically, we found that standard MPPI is good at performing local optimization on an already-feasible nominal trajectory. 実験により,MPPIは,すでに実現可能な名目軌道上での局所的な最適化に優れていることがわかった。 0.53
On the other hand, the control sequence posterior is able to sample collision-free goaldirected trajectories, but locally improving trajectories with samples is difficult as small changes in the control sequence posterior latent space Z often lead to large differences in the resulting control sequence. 一方、制御シーケンス後部は衝突のないゴール指向軌道をサンプリングすることができるが、制御シーケンス後部遅延空間Zの小さな変化が結果として生じる制御シーケンスに大きな違いをもたらすため、局所的なサンプルによる軌道改善は困難である。 0.83
As a result, we observed that we obtained trajectories which reached the goal and avoided obstacles with very few samples, however the cost of the best trajectory did not improve much with more iterations of MPPI. その結果,目標に到達した軌跡が得られ,ごくわずかなサンプルで障害物を回避できたが,mppiの反復数が増えるほど,最良軌跡のコストは改善しなかった。 0.75
FlowMPPI combines sampling in the latent space Z, and sampling perturbations to trajectories to get the advantages of both. FlowMPPIは、潜在空間Zにおけるサンプリングと、両方の利点を得るために軌跡への摂動をサンプリングする。
訳抜け防止モード: FlowMPPIは潜在空間Zにおけるサンプリングと軌道への摂動のサンプリングを組み合わせた 両方の利点を得るためです
0.79
For a given sampling budget K, we generate half of the samples from perturbing the nominal trajectory as in MPPI, and the other half from sampling from the control sequence posterior. 所定のサンプリング予算Kに対して、MPPIのように名目軌道を摂動することでサンプルの半分を生成し、残りの半分は制御シーケンス後部からのサンプリングから生成する。 0.74
These samples will be combined as in standard MPPI. これらのサンプルは標準MPPIと組み合わせられる。 0.73
Since the control sequence posterior is invertible w.r.t U, a given nominal trajectory U can be transformed to a latent state Z. For the samples from the control sequence posterior, we apply a perturbation cost on the distance of the sampled trajectory from the nominal in latent space. 制御シーケンス後方は可逆な w.r.t u であるため、与えられた名目的軌道 u は、制御シーケンス後方からのサンプルに対して潜在状態 z に変換することができる。
訳抜け防止モード: 制御シーケンス後部は、可逆な w.r.t U であるため、制御シーケンス後部からのサンプルに対して、与えられた名目軌道Uを潜在状態Zに変換することができる。 サンプル軌道距離に 摂動コストを適用します 潜時空間の 名目から
0.77
This cost mirrors a similar cost in standard MPPI which penalizes perturbations based on distance to the nominal in the control space. このコストは、制御空間内の名目への距離に基づいて摂動を罰する標準MPPIの同様のコストを反映している。 0.73
E. Generalizing to OOD Environments E.OOD環境への一般化 0.72
A novel environment can be OOD for the control sequence posterior and result in poor performance. 制御シーケンス後部において、新しい環境がOODとなり、結果として性能が低下する。
訳抜け防止モード: 制御シーケンス後部における新しい環境はOODになり得る 結果としてパフォーマンスは低下する。
0.71
We present an Ut−1 ← Ut ご紹介します Ut−1 > Ut 0.45
Algorithm 1 A single step of FlowMPPI, this will run every timestep until task is completed or failure is reached. アルゴリズム 1 FlowMPPIの単一ステップでは、タスクが完了するか障害に到達するまで、すべてのタイムステップが実行される。 0.71
Inputs: Cost function J, previous nominal trajectory U, Context vector C = gω(x0, xg, h), control sequence posterior flow fζ, MPPI hyperparameters (λ, Σ), Horizon T, Samples K 1: function FLOWMPPISTEP (cid:46) Perform shift operation on nominal U 2: for t ∈ {1, ..., T − 1} do 3: 4: UT−1 ∼ N (0, Σ) 5: (cid:46) Map nominal controls to fζ latent space 6: Z ← f−1 (U, C) 7: (cid:46) Generate samples by perturbing nominal U 8: for k ∈ {1, ..., K 9: U ∼ N (0, Σ) 10: Uk ← U + U 11: τk ∼ p(τ|Uk) 12: Sk ← J(τk) + λUkΣ−1U 13: Inputs: Cost function J, previous nominal trajectory U, Context vector C = gω(x0, xg, h), control sequence posterior flow fζ, MPPI hyperparameters (λ, Σ), Horizon T, Samples K 1: function FLOWMPPISTEP (cid:46) Perform shift operation on nominal U 2: for t ∈ {1, ..., T − 1} do 3: 4: UT−1 ∼ N (0, Σ) 5: (cid:46) Map nominal controls to fζ latent space 6: Z ← f−1 (U, C) 7: (cid:46) Generate samples by perturbing nominal U 8: for k ∈ {1, ..., K 9: U ∼ N (0, Σ) 10: Uk ← U + U 11: τk ∼ p(τ|Uk) 12: Sk ← J(τk) + λUkΣ−1U 13:
訳抜け防止モード: 入力 : コスト関数 J, 以前の名跡 U, コンテキストベクトル C = gω(x0, xg, h ) 制御後流 f , MPPI ハイパーパラメータ (λ, Σ ) Horizon T, Samples K 1 : function FLOWMPPISTEP ( cid:46 ) 名義 U2 : for t ∈ { 1 ..., T − 1 } do 3 : 4 : UT−1 > N ( 0, Σ ) 5 : ( cid:46 ) Map named control to f = latent space 6 : Z > f−1 ( U, C ) 7 : ( cid:46 ) サンプルを k ∈ {1 に対して摂動することによって生成する。 ..., K 9 : >U > N ( 0, Σ ) 10 : Uk > U + ~U 11 : τk > p(τ|Uk ) 12 : Sk > J(τk ) +λUkΣ−1\U 13
0.78
(cid:46) Sample trajectory (cid:46) Compute cost (cid:46) Generate samples from control sequence posterior for k ∈ { K (cid:46) サンプル軌道 (cid:46) 計算コスト (cid:46) k ∈ { K の制御シーケンス後からサンプルを生成する 0.83
2 + 1, ..., K} do 2 + 1, ..., k} である 0.79
2 } do ζ 2 } である。 ζ 0.53
(cid:46) Sample trajectory (cid:46) Compute cost (cid:46)サンプル軌道(cid:46)演算コスト 0.81
14: 15: 16: 17: 18: 19: 14: 15: 16: 17: 18: 19: 0.43
20: 21: 22: 23: 24: 20: 21: 22: 23: 24: 0.42
25: 26: Z ∼ N (0, I) Uk ← fζ(Z, C) τk ∼ p(τ|Uk) Sk ← J(τk) + λZ(Z − Z) 25: 26: n (0, i) uk : τk = p (τ|uk) sk (τk) + λz(z − zyz)
訳抜け防止モード: 25: 26: a b (0, i ) uk (0, i) uk (0, i) - 英語の英語表記。 c ) τk が p(τ|uk ) sk が j(τk ) + λ が成立する。
0.41
η =(cid:80)K U ←(cid:80)K η =(cid:80)k u (cid:80)k 0.46
(cid:46) Compute new nominal U β ← mink Sk k=1 exp(− 1 λ (Sk − β)) for k ∈ {1, ..., K} do λ (Sk − β)) η exp(− 1 k=1 wkUk (cid:46) k ∈ {1, ..., k} do λ (sk − β)) η exp(− 1 k=1 wkuk に対して、新しい名目 u β {\displaystyle uβ\mink skk=1 exp(−1 λ (sk − β)) を計算する。 0.77
wk ← 1 return U wk 1 である。 u を返します。 0.41
approach where we project the OOD environment embedding h in-distribution in order to produce low-cost trajectories when it is used as part of the input to fζ. f への入力の一部として使われる場合、低コストの軌跡を生成するために h を分配に埋め込む ood 環境を投影するアプローチ。
訳抜け防止モード: h を埋め込んだ OOD 環境を投影するアプローチ - 順に分布する 低コストで軌道を作る f への入力の一部として使われる場合。
0.84
The intuition behind this approach is that our goal is to sample low-cost trajectories in the current environment. このアプローチの背景にある直感は、現在の環境における低コストな軌道をサンプリングすることである。 0.64
Given that fζ will have been trained over a diverse set of environments, if we can find an in-distribution environment that would elicit similar low-cost trajectories, then we can use this environment as a proxy for the actual environment when sampling from the flow. f が多様な環境上で訓練されることを考えると、もし類似の低コストな軌道を導出する分布環境を見つけることができるなら、フローからサンプリングする場合、この環境を実際の環境のプロキシとして使うことができる。 0.79
Thus we avoid the problem of samples from the control sequence posterior being unreliable when the input is OOD. したがって、入力がOODの場合、制御シーケンス後部のサンプルが信頼できないという問題を回避する。 0.72
In order to do this projection, we first need to quantify how far out-of-distribution a given environment is. このプロジェクションを行うには、まず与えられた環境の分布外距離を定量化する必要がある。 0.75
Once we have such an OOD score, we will find a proxy environment embedding ˆh by optimizing the score, while also regularizing to encourage low-cost trajectories. このようなOODスコアが得られたら、スコアを最適化し、低コストなトラジェクトリを促進するために正規化しながら、ahを埋め込むプロキシ環境を見つけます。 0.44
For the OOD score, we use the VAE we have discussed in section V-B. OODスコアには、V-Bセクションで議論したVAEを使用します。 0.72
VAEs and other deep latent variable models have been used to detect OOD data in prior work [9, 38, 22], however these methods are typically based on evaluating the likelihood of an input, in our case p(E). vaesや他の深い潜伏変数モデルは、以前の作業(9, 38, 22])でoodデータを検出するのに使われてきたが、これらの方法は一般的に入力の可能性の評価に基づいており、p(e) の場合である。
訳抜け防止モード: VAEや他の深い潜伏変数モデルが使われてきた 前の作業でOODデータを検出する[9, 38, 22] しかしこれらの手法は 一般的に p(E) の場合、入力の確率を評価する。
0.83
For VAEs this requires reconstruction. VAEにとってこれは再構築を必要とする。 0.48
We would like to 私たちは 0.42
英語(論文から抽出)日本語訳スコア
avoid using reconstruction in our OOD score for two reasons. OODスコアの再構築は2つの理由から避けてください。 0.66
First, reconstruction, particularly of a 3D SDF, adds additional computation cost and we would like to evaluate the OOD score in an online control loop. まず,3次元SDFの再構成により計算コストが増大し,OODスコアをオンライン制御ループで評価したい。
訳抜け防止モード: 第一に、特に3D SDFの再構成は、計算コストを増大させる OODスコアをオンラインコントロールループで評価したいのです。
0.69
Second, optimizing an OOD score based on reconstruction would drive us to find an environment embedding proxy which is able to approximately reconstruct the entire environment. 第二に、再構成に基づくOODスコアの最適化は、環境全体を概ね再構築できる環境埋め込みプロキシを見つけるのに役立ちます。 0.81
This makes the problem more difficult than is necessary, as we do not need ˆh to accurately represent the entire environment, only to elicit low-cost trajectories from the control sequence posterior. これにより問題は必要以上に難しくなり、制御シーケンスの後方から低コストの軌道を導出するためだけに、環境全体を正確に表現するために sh は必要としない。 0.71
To determine how close h is to being in-distribution, we use h が分布内でどれだけ近いかを決定するために、我々は使う 0.62
the following OOD score: 以下のOODスコア。 0.65
LOOD(h) = − log pφ(h) LOOD(h) = − log pφ(h) 0.46
(13) where pφ(h) is the learned flow prior for the VAE. (13) ここで pφ(h) は VAE の前の学習フローである。 0.61
The intuition for using this as an OOD score is that this term is minimized for the dataset in LV AE, so we should expect it to be lower for in-distribution data. これをoodスコアとして使用する直感は、この用語がlv aeのデータセットで最小化されているため、分散データでは低くなることが期待できる。 0.65
Using a learned prior was shown to improve density estimation over a Gaussian prior [7] and we found the learned prior yielded much better OOD detection than using a Gaussian prior, which is the standard VAE prior (see Figure 3). ガウス前駆体 [7] 上での密度推定を改善するために, 学習前駆体を用いた場合, 標準vae前駆体であるガウス前駆体を用いるよりもずっと良いood検出が得られた(図3)。 0.68
We can perform gradient descent on LOOD to find ˆh, thus projecting the environment to be in-distribution. lood 上で勾配降下を行い,h を見つけることで,環境の分布を予測できる。 0.63
Note that without regularization this process will converge to a nearby maximum likelihood solution, which may lose key features of the current environment. 正規化がなければ、このプロセスは、現在の環境の重要な特徴を失う可能性のある、近くの最大確率解に収束する。 0.62
Since our aim is to sample lowcost trajectories from the control sequence posterior, we use Lf low as a regularizer for this gradient descent. 本研究の目的は,制御シーケンス後部から低コストな軌道をサンプリングすることであり,この勾配降下の正則化器としてLfローを用いる。 0.68
Our intuition here is that in order to generate low-cost trajectories in the true environment, the projected environment embedding should preserve important features of the environment relevant for that particular planning query. ここでの直感は、真の環境で低コストの軌道を生成するために、投影された環境埋め込みは、特定の計画クエリに関連する環境の重要な特徴を保存するべきであるということです。
訳抜け防止モード: ここでの直感は順番に 現実の環境で低コストの軌跡を 生み出します 予測された環境の埋め込みは、その特定の計画クエリに関連する環境の重要な特徴を保存すべきである。
0.75
The new environment embedding is then given by 新しい環境の埋め込みは、次に与えられる 0.82
ˆh = arg min h h = arg min h である。 0.67
bLOOD + Lf low bLOOD + Lflow 0.27
(14) for scalar b > 0. (14) スカラー b > 0 の場合 0.52
We project h to ˆh by minimizing the above by gradient descent. 我々は、上述の勾配降下を最小化することにより、h を h に投影する。 0.58
This step is incorporated into FlowMPPI in a version of our method FlowMPPIProject. このステップは、私たちのFlowMPPIProjectのバージョンでFlowMPPIに組み込まれます。 0.68
This version of our method will perform M steps of gradient descent on the above combined loss at initialization, followed by a single step at each iteration of FlowMPPIProject. 本手法では,FlowMPPIProjectの各イテレーションにおいて,初期化時に上記の組み合わせによる損失に対して勾配降下のMステップを実行する。 0.75
The algorithm for projection is shown in algorithm 4 in appendix E. 投影のアルゴリズムは、付録Eのアルゴリズム4に示される。 0.72
VI. EVALUATION In this section, we will evaluate our proposed approaches FlowMPPI & FlowMPPIProject on two simulated systems; a 2D point robot and a 3D 12DoF quadrotor. VI。 評価 本稿では,2Dポイントロボットと3D 12DoFクオータの2つのシミュレーションシステム上でのFlowMPPIとFlowMPPIプロジェクトについて検討する。 0.67
For each system, we will train the flow on a dataset of starts, goals and environments and evaluate the performance on environments drawn from the same distribution. 各システムに対して、開始、目標、環境のデータセット上でフローをトレーニングし、同じ分布から引き出された環境上での性能を評価する。 0.77
In addition, for each system we will test on novel environments that are radically different from those used for training and evaluate the generalization of our approach and the ability of FlowMPPIProject to adapt to these OOD environments. さらに、各システムにおいて、トレーニングに使用するものと根本的に異なる新しい環境上でテストを行い、このアプローチの一般化と、これらのood環境に適応するflowmppiprojectの能力を評価する。 0.79
For the 12DoF quadrotor system, 12dofのクアドローターシステムのために 0.77
Fig. 3. Comparison of our OOD scores with using a VAE with a standard Gaussian prior for in-distribution (red) and out-of-distribution (grey) simulated environments. 図3。 oodスコアと標準gaussian pro for in-distribution (red) およびout-of-distribution (grey)シミュレート環境との比較を行った。 0.66
a) planar navigation using a Gaussian prior, a) ガウス前駆体を用いた平面ナビゲーション 0.72
b) planar navigation using a Normalizing flow prior, b) 前述した正規化フローを用いた平面航法 0.75
c) 12DoF quadrotor using a Gaussian prior, c) ガウス先行器を用いた12DoF二次器 0.62
d) 12DoF quadrotor using a Normalizing flow prior, These scores are computed by sampling h from qθ(h|E) and evaluating log pφ(h). d) 正規化フローに先立ち、これらのスコアは、qθ(h|e)からhをサンプリングし、ログpφ(h)を評価することで計算される。 0.56
The score is normalized by the dimensionality of h. スコアは h の次元によって正規化される。 0.68
We see that our method, shown in 私たちは私たちの方法が示すように 0.67
(b) and (d), achieves a clear separation between in-distribution and out-of-distribution environments in both cases. (b) (d) いずれの場合においても分布内環境と分布外環境を明確に分離する。 0.48
we additionally evaluate our method in simulation on two environments generated from real-world data from the 2D3D-S dataset [1], where our goal is to evaluate if the control sequence posterior, trained on simulated environments, can adapt to real-world environments. さらに,2D3D-Sデータセット [1] から生成された実世界のデータから生成された2つの環境をシミュレーションで評価し,シミュレーション環境で訓練された制御シーケンスが実世界の環境に適応できるかどうかを評価する。 0.76
For our novel environments, we select environments which are difficult for sampling-based MPC techniques. 新たな環境ではサンプリングベースのmpc技術では難しい環境を選択する。 0.72
We will use the terms “in-distribution” and “out-of distribution” for environments for the rest of this section, but note that these terms are relative to the set of environments which we use to train our method. in-distribution” と "out-of distribution" という用語を残りの部分の環境に使用しますが、これらの用語はメソッドのトレーニングに使用する環境のセットと相対的に関係していることに注意してください。 0.72
Being out-of-distribution has no bearing on the non-learning based baselines. 分布外であることは、非学習ベースのベースラインに影響を与えない。 0.58
The performance of nonlearning sampling-based MPC algorithms depends only on the given environment, not its relation to other environments. 非学習サンプリングに基づくMPCアルゴリズムの性能は、与えられた環境のみに依存し、他の環境とは関係がない。 0.69
A. Systems & Environments In this section we will A.システムと環境 この節では、 0.63
t=1 10dG(xt)2 +(cid:80)T t=1 10dG(xt)2 +(cid:80)T 0.42
J(τ ) = 100dG(xT ) +(cid:80)T−1 J(τ ) = 100dG(xT ) +(cid:80)T−1 0.44
introduce the systems and the environments we use for evaluation. 評価に使用するシステムと環境を紹介します。 0.76
For all systems and environments, a task is considered a failure if there is a collision or if the system does not reach the goal region within a timeout of 100 timesteps. すべてのシステムや環境において、衝突が発生した場合や100ステップのタイムアウト内にシステムが目標領域に達しなかった場合、タスクは失敗とみなされる。 0.86
The cost function for both systems is given by t=1 10000D(xt), where T is the MPC horizon, dG is a distance to goal function, and D is an indicator function which is 1 if xt is in collision and 0 otherwise. 両システムのコスト関数は t=1 10000D(xt) で与えられるが、T は MPC の地平線、dG は目標関数の距離、D は xt が衝突して 0 がなければ 1 となる指標関数である。 0.80
For all of our experiments, the control horizon T = 40. 全ての実験において、制御水平線 T = 40 である。 0.82
We use a Gaussian prior over controls is p(U ) = N (0, σ2I) which induces a cost on the squared magnitude of the actions. 制御上のガウス前駆体は p(u ) = n (0, σ2i) であり、これは作用の2乗の大きさのコストを誘導する。 0.68
For all of our experiments the dynamics are deterministic. すべての実験において、ダイナミクスは決定論的です。 0.66
Further details of the generation of training data can be found in appendix C. トレーニングデータの生成に関する詳細は、付録Cに記載されている。 0.71
1) Planar Navigation: The robot in the planar navigation task is a point robot with double-integrator dynamics. 1) 平面ナビゲーション: 平面ナビゲーションタスクのロボットは, ダブルインテグレータ・ダイナミクスを備えたポイントロボットである。 0.85
The その... 0.20
英語(論文から抽出)日本語訳スコア
system above. Figure 3 shows that this score is clearly able to distinguish in-distribution environment embeddings from OOD ones. 上のシステムです 図3は、このスコアが、分散環境の埋め込みとOODの埋め込みを明確に区別できることを示している。 0.67
To show the necessity of using both the OOD score and the regularization in projection, we perform an ablation on these two components in appendix F for the quadrotor system. 投射におけるoodスコアと正規化の両方を使用する必要性を示すため、これらの2つの成分を二次系用の付録fでアブレーションする。 0.65
C. Network Architectures C.ネットワークアーキテクチャ 0.86
For both the control sequence posterior flow fζ and the VAE prior pφ(h) we use an architecture based on Real-NVP [8]. 制御列後流 f と VAE の pφ(h) については、Real-NVP [8] に基づくアーキテクチャを用いる。 0.72
For the VAE prior pφ(h) we use a flow depth of 4, while for the control sampling flow fζ we use a flow depth of 10. VAE 以前の pφ(h) の場合、フロー深さは 4 であり、一方、制御サンプリングフロー f ではフロー深さは 10 である。 0.69
For the control sampling flow we use the conditional coupling layers from [37]. 制御サンプリングフローには[37]からの条件結合層を使用します。 0.78
For the VAE encoder we use four CNN layers with a kernel of 3 and a stride of 2, followed by a fully connected layer. vaeエンコーダでは、3のカーネルと2のストライドを持つ4つのcnnレイヤを使用しています。
訳抜け防止モード: VAEエンコーダでは、カーネルが3の4つのCNNレイヤを使用します。 ストライドは2です 完全に接続された層が続きます
0.62
For the VAE decoder we used a fully connected layer followed by four transposed CNN layers. vaeデコーダには、完全接続層と4つのcnn層を使いました。 0.65
For the 3D case we use 3D convolutions. 3Dの場合、私たちは3D畳み込みを使用します。 0.59
The dimensionality of both h and C was 64 for the planar navigation environments 256 for 3D 12DoF quadrotor environments. hとCの寸法は3D 12DoF四角形環境の256の平面航法環境において64であった。 0.73
gω was defined as an MLP with a single hidden layer of size 256. gω はサイズ256の単一の隠蔽層を持つ MLP として定義された。 0.76
For nonlinear activations we used ReLU throughout. 非線形アクティベーションには、ReLUを使いました。 0.55
D. Training & Data D.トレーニングとデータ 0.93
For training, we use 10000 randomly generated environments for planar navigation task, and 20000 for the 3D 12DoF quadrotor task. 学習には,平面ナビゲーションタスクに10000個のランダム生成環境,および3次元12dofクアドロタータスクに20000を用いた。 0.79
At each epoch, for each environment, we randomly select one of 100 start and goal pairs. 各エポックにおいて、各環境に対して、100個のスタートペアとゴールペアのいずれかをランダムに選択します。 0.56
We train the control sequence posterior flow fζ, the VAE parameters (θ, φ, ψ) and the context MLP gω end-to-end using Adam for 1000 epochs with a learning rate of 1e−3, with a decay rate of 0.9 every 50 epochs. 我々は,1e−3の学習率を持つ1000エポックのadamを用いて,制御シーケンスの後流f,vaeパラメータ(θ, φ, ψ)およびコンテキストmlpgωを,50エポック毎に0.9の減衰率で訓練する。 0.75
After 100 epochs, we freeze the VAE and do not continue training with LVAE. 100エポック後、VAEを凍結し、LVAEでのトレーニングを継続しない。 0.66
This is primarily because the VAE converges quickly and training proceeds more quickly without reconstruction. これは主にvaeが迅速に収束し、トレーニングが再構築なしでより迅速に進行するためである。
訳抜け防止モード: これは主に VAEは迅速に収束し、訓練は再建せずにより迅速に進行する。
0.70
When training the VAE we divide the loss by the total dimensionality of the SDF and use a = 5. VAEのトレーニングでは、損失をSDFの総次元によって分割し、a = 5を使用する。 0.84
For every environment for the flow training, hyperparameters we use β = 1 and we linearly increase α from 1 to 500 during training. フロートレーニングのすべての環境において、ハイパーパラメータはβ = 1 を使い、トレーニング中に α を 1 から 500 に直線的に増加させる。 0.70
Empirically we found that low initial α was required for the flow to learn to generate goal-directed trajectories early on during training, and that increasing α later during training increases the diversity of the flow sampling distribution. 実験により, トレーニング中に早期に目標指向軌道を生成するために, フローの初期αが低いこと, トレーニング中のαの増加は, フローサンプリング分布の多様性を増大させることがわかった。 0.80
A more details list of training hyperparameters can be found in appendix B トレーニングハイパーパラメータの詳細なリストは、appendix Bで見ることができる。 0.75
E. Baselines For our baselines we use several state-of-the-art samplingbased MPC methods: MPPI [36], Stein Variational MPC (SVMPC) [17] and improved CEM (iCEM) [24]. E.ベースライン ベースラインにはMPPI [36], Stein Variational MPC (SVMPC) [17], 改良されたCEM (iCEM) [24] という,最先端のサンプリングベースのMPC手法が使用されている。 0.79
MPPI uses a Gaussian distribution as the sampling distribution, iCEM uses colored noise, and SVMPC uses a mixture of Gaussians. MPPIはサンプリング分布としてガウス分布を使用し、iCEMはカラーノイズを使用し、SVMPCはガウス分布を混合する。 0.74
For each baseline, we tune the hyperparameters to get the best performance based on the training environments, and maintain these hyperparameters when switching to the out-ofdistribution environments. 各ベースラインについて、トレーニング環境に基づいて最高のパフォーマンスを得るためにハイパーパラメータをチューニングし、分散環境に切り替える際にこれらのハイパーパラメータを維持する。 0.71
When evaluating our two proposed methods and the baselines, each method is given the same sampling budget per timestep. 提案手法とベースラインの評価では,各手法は時間毎に同じサンプリング予算が与えられる。 0.69
This means that for methods これはメソッドに対して 0.79
Fig. 4. Examples of our ’in-distribution’ environments (top) and ’out-ofdistribution’ environments (bottom). 図4。 例えば、'in-distribution' ;環境(トップ)と'out-of-distribution& #x27;環境(bottom)です。 0.65
a) The sphere environment for the planar navigation task, showing sampled trajectories from the flow. a) フローからサンプリングされた軌道を示す平面ナビゲーションタスクの球面環境。
訳抜け防止モード: a) 平面航法作業のための球体環境 流れから採取された軌跡を 示しています
0.83
b) The narrow passages environment for planar navigation, we see that the samples from the flow are goal orientated and generally toward the passages, but most are generally not collision free. b) 平面ナビゲーションのための狭い通路環境では,フローからのサンプルはゴール志向であり,一般に通路に向かっているが,ほとんどが衝突しない。 0.77
c) The sphere environment for the 12DoF quadrotor. c) 12DoF四重項器の球体環境 0.71
d) The narrow passages environment for the 12DoF quadrotor d)12DoF四重項器の狭い通路環境 0.79
goal is to perform navigation in an environment cluttered with obstacles. 目標は障害物が散らばった環境で ナビゲーションを行うことです 0.76
The state and control dimensionality are 4 and 2, respectively. 状態と制御次元はそれぞれ4と2である。 0.73
The environment is represented as a 64 × 64 SDF. 環境は64×64 SDFとして表される。 0.76
Examples of the training and evaluation environments are shown in Figure 4 (a & b). トレーニングおよび評価環境の例を図4(a&b)に示します。 0.75
The training environments consist disc-shaped obstacles, where the size, location and number of obstacles is randomized. 訓練環境は円板状の障害物で構成され、障害物の大きさ、位置、数をランダム化する。 0.52
The out-of-distribution environment consists of four rooms, with narrow passages randomly generated between them. 分布環境は4つの部屋からなり、狭い通路がランダムに生成される。 0.73
The location of the passages is randomized for each OOD environment. 通路の位置はOOD環境毎にランダム化される。 0.71
The distance to goal function is dG(x) = ||x − xG||2. 目標関数の距離は dg(x) = ||x − xg|2 である。 0.80
The goal region for this task is given by XG = {x : ||x − xG||2 < 0.1}. このタスクのゴール領域は XG = {x : ||x − xG|2 < 0.1} で与えられる。 0.82
The dynamics for this system are shown in appendix C2. このシステムのダイナミクスは appendix c2 に示される。 0.77
2) 3D 12DoF Quadrotor: This system is a 3D 12DoF underactuated quadrotor with the shape of a short cylinder. 2) 3D 12DoFクアドロター: このシステムは短筒形状の3D 12DoF不動クアドロターである。 0.77
It has state and control dimensionality of 12 and 4, respectively. 状態と制御次元はそれぞれ 12 と 4 である。 0.70
As with the planar navigation task, the goal is to perform navigation in a cluttered environment. 平面ナビゲーションタスクと同様に、目標は雑然とした環境でナビゲーションを行うことである。 0.73
Examples of the training and evaluation environments are shown in Figure 4 (c & d). トレーニング環境と評価環境の例を図4(c&d)に示します。 0.72
The training environment consists of spherical obstacles of random size, location, and number, and the out-of-distribution environment of four rooms separated by randomly generated narrow passages. トレーニング環境は、ランダムサイズ、位置、番号の球形障害物と、ランダムに生成された狭い通路で区切られた4部屋の分布外環境から構成される。 0.62
The environment is represented as a 64 × 64 × 64 SDF. 環境は64×64×64 SDFとして表される。 0.74
The goal region is specified as a 3D position pG. ゴール領域を3d位置pgとして指定する。 0.75
The distance to goal function is dG(x) = ||Ax − pG||2 + 0.01||Bx||2 where A selects the position components from the state x, and B selects the angular velocity components. ゴール関数の距離は dG(x) = ||Ax − pG||2 + 0.01||Bx||2 であり、A は状態 x から位置成分を選択し、B は角速度成分を選択する。 0.66
The goal region is XG = {x : dG(x) < 0.3}. ゴール領域は XG = {x : dG(x) < 0.3} である。 0.91
We also tested in two simulation environments generated from real-world data (shown in 1). また,実世界のデータから生成された2つのシミュレーション環境(1。 0.78
The dynamics for this system are shown in appendix C3. このシステムのダイナミクスは appendix c3 に示されている。 0.79
B. OOD Score and Projection B.OODスコアと投射 0.83
To confirm the efficacy of our OOD score, we computed this score for the training and OOD environments for each OODスコアの有効性を確認するため,このスコアをトレーニング用およびOOD環境用として算出した。 0.78
英語(論文から抽出)日本語訳スコア
Fig. 5. The projection process visualized for the planar navigation task. 図5。 平面ナビゲーションタスクのために可視化された投影プロセス。 0.65
We visualize the projected environment embedding using the VAE decoder. VAEデコーダを用いて予測環境の埋め込みを可視化する。 0.64
Note that decoding h is only used for training the VAE and visualization, it is not necessary for projection. 復号化 h は VAE のトレーニングや可視化にのみ使用されるため、射影には必要ではない。 0.71
The top shows the environment and sampled trajectories from qζ (U|C). 上部は環境を示し、q の軌道 (U|C) をサンプリングする。 0.72
The bottom shows the same samples overlaid on a reconstruction of projected environment embedding ˆh. 底面は同じサンプルを、投影された環境が埋め込まれているのに重ねて示している。 0.56
On the left, the initial SDF is very poor. 左側のSDFは非常に貧弱である。 0.61
As the task progresses, the iterative projection results in an SDF that resembles the training environment more. タスクが進むにつれて、反復投影により、トレーニング環境によく似たSDFが得られる。 0.61
The environment embedding encodes obstacles that result in a trajectory which traverses the narrow passage. 環境埋め込みは、狭い通路を横切る軌道をもたらす障害物を符号化する。 0.73
Notice however, that regions that are not relevant for this planning task, such as the top left corner, do not need to accurately represent the environment. ただし、左上隅のようなこの計画作業に関係のない領域は、環境を正確に表現する必要はないことに注意してください。 0.68
that require multiple iterations per timestep, the sampling budget is distributed across the iterations. ステップ毎に複数のイテレーションが必要で、サンプリング予算はイテレーション全体に分散されます。 0.57
A more detailed list of the hyperparameters for each controller can be found in appendix D. Evaluating Lf low during projection requires sampling and evaluating control sequences. プロジェクション中にLfを低く評価するには、制御シーケンスのサンプリングと評価が必要である。
訳抜け防止モード: コントローラ毎のハイパーパラメータのより詳細なリストは、appendix dで見ることができる。 プロジェクション中のlf値の評価 制御シーケンスのサンプリングと評価が必要です。
0.68
When we consider the sampling budget of different algorithms in evaluation, we will include these samples. 評価において異なるアルゴリズムのサンプリング予算を考慮すると、これらのサンプルを含める。 0.78
FlowMPPIProject uses half of the allowed sampling budget during the project step, and the other half for the FlowMPPI control algorithm. FlowMPPIProjectは、プロジェクトの段階で許可されたサンプリング予算の半分と、FlowMPPI制御アルゴリズムの残りの半分を使用する。 0.78
While it does take longer to sample from the flow than from the distributions in the baselines, we observe that the cost of evaluating control sequences dominates over the cost of sampling. ベースラインの分布よりも流れからのサンプリングに時間がかかるが, 制御シーケンス評価のコストがサンプリングのコストよりも大きいことが観察された。 0.71
For example, for the 3D 12DoF quadrotor system, sampling 1024 control sequences from the flow and evaluating the cost of these control sequences takes on average 9ms and 80ms, respectively on an i7-8700K CPU and Nvidia 1080 Ti GPU. 例えば、3d 12dofクアドロターシステムでは、フローから1024個の制御シーケンスをサンプリングし、これらの制御シーケンスのコストを評価するには、i7-8700k cpuとnvidia 1080 ti gpuでそれぞれ平均9msと80msが必要となる。 0.64
F. Results The results comparing our MPC methods to baselines are shown in Tables I and II. F.結果 MPC法をベースラインと比較した結果を表I,IIに示す。 0.76
For the planar navigation case, we see 平面ナビゲーションケースには 0.42
that FlowMPPI and FlowMPPIProject are competitive with the baselines on the training environments. FlowMPPIとFlowMPPIProjectは、トレーニング環境のベースラインと競合しています。 0.75
Our method reaches the goal region more often, while attaining slightly higher average cost. 提案手法は,平均コストをわずかに高めながら,目標領域に到達する頻度を高くする。 0.67
For the out-of-distribution environments, our method reaches the goal significantly more often. アウトオブディストリビューション環境では、このメソッドの方がかなり頻繁に目標に到達します。 0.51
For example, with a sampling budget of 256, the success rates for FlowMPPIProject is 0.65 and increases to 0.87 for a sampling budget of 1024. 例えば、サンプリング予算 256 の FlowMPPIProject の成功率は 0.65 であり、サンプリング予算 1024 の 0.87 に増加する。 0.65
The next closest baseline, iCEM, has successes rates of 0.46 and 0.62 for sampling budgets of 256 and 1024, respectively. 次のベースラインであるiCEMは、それぞれ256と1024のサンプリング予算に対して0.46と0.62の成功率を持つ。 0.62
The projection process for the planar navigation task is visualized for an OOD environment in Figure 5. 図5のOOD環境に対して、平面ナビゲーションタスクの投影過程を可視化する。 0.79
We observed during this experiment that when iCEM and SVMPC are able to generate a trajectory which reaches the goal region, they are able to locally optimize this trajectory better than FlowMPPI variants, while FlowMPPI is better able to generate sub-optimal trajectories to the goal region. この実験において、iCEMとSVMPCが目標領域に達する軌道を生成することができれば、FlowMPPIの変種よりも局所的にこの軌道を最適化できるが、FlowMPPIは目標領域への準最適軌道を生成することができる。 0.76
For the quadrotor system, FlowMPPIProject outperforms all other methods in both cost and success rate across all environments and sampling budgets. 四極子システムでは、FlowMPPIProjectはコストと成功率の両方で他の方法よりも優れており、予算をサンプリングする。 0.54
With a sampling budget of 256, FlowMPPIProject attains a 71% success rate compared to FlowMPPIProjectのサンプリング予算は256で、成功率は71%に達した。 0.65
In-Distribution K=512 Success 流通 K=512 成功 0.49
K=256 Success Out-of Distribution K=256 成功 配電設備 0.43
K=512 Success K=1024 K=512 成功 K=1024 0.46
Success Cost 2948 2727 2145 2155 2155 4724 4947 4157 3601 3443 成功 Cost 2948 2727 2145 2155 2155 4724 4947 4157 3601 3443 0.61
0.36 0.25 0.62 0.84 0.87 0.27 0.44 0.63 0.84 0.93 0.36 0.25 0.62 0.84 0.87 0.27 0.44 0.63 0.84 0.93 0.21
Cost 2840 2666 2127 2104 2059 4351 4486 3795 3421 3200 Cost 2840 2666 2127 2104 2059 4351 4486 3795 3421 3200 0.43
COMPARISON OF METHODS ON 100 RANDOMLY GENERATED ENVIRONMENTS, STARTS AND GOALS FOR BOTH IN DISTRIBUTION AND OUT-OF-DISTRIBUTION 分布と分布の両方におけるランダム生成環境, 開始, 目標100についての比較 0.54
TRAINING ENVIRONMENTS. PERFORMANCE ON OUT-OF-DISTRIBUTION ENVIRONMENTS IS EVALUATED FOR THREE DIFFERENT SAMPLING BUDGETS. 訓練環境。 3つの異なるサンプリング環境における外部分布環境の評価 0.34
System Planar Navigation システム 平面ナビゲーション 0.77
12DoF Quadrotor 12DoFクアドロレータ 0.73
Controller MPPI SVMPC iCEM コントローラ MPPI SVMPC iCEM 0.62
FlowMPPI MPPI SVMPC iCEM FlowMPPI MPPI SVMPC iCEM 0.42
FlowMPPIProject FlowMPPIプロジェクト 0.75
FlowMPPI FlowMPPIProject FlowMPPI FlowMPPIプロジェクト 0.59
0.89 0.97 0.97 0.99 0.99 0.57 0.55 0.96 0.92 0.98 0.89 0.97 0.97 0.99 0.99 0.57 0.55 0.96 0.92 0.98 0.21
Cost 1925 1523 1531 1705 1737 3589 3745 2724 2595 2437 TABLE I 原価 1925 1523 1531 1705 1737 3589 3745 2724 2595 2437 表 i 0.76
0.19 0.18 0.46 0.62 0.65 0.05 0.11 0.35 0.56 0.71 0.19 0.18 0.46 0.62 0.65 0.05 0.11 0.35 0.56 0.71 0.21
Cost 3180 3032 2467 2731 2690 4809 5588 4388 3805 3688 Cost 3180 3032 2467 2731 2690 4809 5588 4388 3805 3688 0.43
0.29 0.22 0.59 0.75 0.77 0.11 0.21 0.47 0.72 0.83 0.29 0.22 0.59 0.75 0.77 0.11 0.21 0.47 0.72 0.83 0.21
英語(論文から抽出)日本語訳スコア
Rooms Environment Success Stairway Environment Success 部屋環境の成功 階段環境の成功 0.84
Method MPPI SVMPC iCEM MPPI SVMPC iCEM法 0.40
FlowMPPI FlowMPPIProject FlowMPPI FlowMPPIプロジェクト 0.59
0.83 0.68 0.92 0.87 0.97 0.83 0.68 0.92 0.87 0.97 0.22
Cost 3111 7556 2412 2375 1972 TABLE II 原価 3111 7556 2412 2375 1972年テーブルii 0.76
0.32 0.49 0.58 0.5 0.85 0.32 0.49 0.58 0.5 0.85 0.22
Cost 3019 2770 2623 2463 1745 Cost 3019 2770 2623 2463 1745 0.42
COMPARISON OF METHODS FOR THE 3D 12DOF QUADROTOR NAVIGATION TASK WITH TWO ENVIRONMENTS GENERATED FROM REAL-WORLD DATA. 実世界データから生成した2つの環境を用いた3次元12dofクアドロターナビゲーションタスクの手法の比較 0.50
THE ROOMS ENVIRONMENT IS SHOWN IN FIGURE 4 (B) AND THE STAIRWAY 部屋の環境は図4(b)と階段に示されています 0.53
ENVIRONMENT IS SHOWN IN FIGURE 4 (A). 環境は図4(a)に示されます。 0.61
WE EVALUATE ON 100 RANDOMLY SAMPLED STARTS AND GOALS IN EACH ENVIRONMENT. 環境における100のランダムなスタンプとゴールの評価 0.43
35% by iCEM and 11% by SVMPC for OOD environments. 35%, SVMPCは11%であった。 0.39
For a sampling budget of 1024 the success rate of FlowMPPIproject rises to 93% vs. 63% for iCEM. サンプリング予算は1024で、flowmppiプロジェクトの成功率は93%に、icemは63%に上昇する。 0.52
The dynamics of this task make it much more difficult, particularly because stabilizing around the goal is non-trivial. このタスクのダイナミクスは、特に目標の周りで安定化することは自明ではないため、さらに難しくなります。 0.68
We found that the baselines struggled to find trajectories which both reached and stabilized to the goal, and thus were more susceptible to becoming stuck in local minima. 基準値が目標に到達し安定した軌道を見つけるのに苦労していたため、局所的なミニマムに固執する傾向が強かった。 0.66
Table II shows the results when evaluating our method in simulation in two environments generated from real-world data. 表iiは,実世界データから生成した2つの環境におけるシミュレーション手法の評価結果を示す。 0.74
FlowMPPIProject outperforms all baselines in cost & success rate, despite only being trained on simulated environments consisting of large spherical obstacles. FlowMPPIProjectは、大きな球形障害物からなる模擬環境においてのみ訓練されているにもかかわらず、コストと成功率においてすべてのベースラインを上回っている。
訳抜け防止モード: flowmppiprojectはコストと成功率で全てのベースラインを上回る 大きな球状障害物からなるシミュレーション環境でのみ訓練される。
0.74
For the challenging stairway environment, FlowMPPIProject achieves 85% success, while the next closest baseline, iCEM, has 58% success. 挑戦的な階段環境のために、FlowMPPIProjectは85%の成功を達成し、次の最も近いベースラインであるiCEMは58%成功している。 0.64
FlowMPPI achieves only 50% success rate for this task, highlighting the importance of projection for real-world environments. FlowMPPIはこのタスクで50%の成功率しか達成せず、実環境におけるプロジェクションの重要性を強調している。 0.65
VII. CONCLUSION In this paper we have presented a framework for using a Conditional Normalizing Flow to learn a control sequence sampling distribution for MPC based on the formulation of MPC as Variational Inference. VII。 結論 本稿では,MPC を変分推論として定式化した上で,条件正規化フローを用いて MPC の制御シーケンスサンプリング分布を学習するフレームワークを提案する。 0.72
The control sequence posterior samples control sequences which result in low-cost trajectories that avoid collision. 制御シーケンスの後部サンプルは、衝突を避けるための低コストな軌道を生成するシーケンスを制御する。 0.69
We have shown how this control sequence posterior can be used in a sampling-based MPC method FlowMPPI. サンプルベースMPC法であるFlowMPPIにおいて,この制御シーケンス後部をいかに利用できるかを示した。 0.71
We have also proposed a method for adapting this control sequence posterior to OOD environments by projecting the representation of the environment to be in-distribution, essentially “hallucinating” an in-distribution environment which elicits low-cost trajectories from the control sequence posterior. また, この制御シーケンスをOOD環境に適応させる手法として, 制御シーケンス後部から低コストなトラジェクトリを抽出する分布内環境を「ハロシン化」することにより, 環境の非分布化を推し進める手法も提案している。 0.77
We have demonstrated that our proposed MPC methods FlowMPPI and FlowMPPIProject offer large improvements over baselines in difficult environments, and that by performing the environment projection we can successfully transfer a control sequence posterior learned with simulated environments to environments generated from real-world data. 提案手法であるflowmppiとflowmppiprojectは,難しい環境でのベースラインよりも大きな改善を行い,環境投影を行うことで,シミュレーション環境で学習した後方制御シーケンスを実環境データから生成した環境へうまく転送できることを実証した。 0.84
ACKNOWLEDGMENTS This work was supported in part by NSF grants IIS-1750489 and IIS-2113401, and ONR grant N00014-21-1-2118. 裏書き nsf grants iis-1750489 と iis-2113401 と onr grant n00014-21-1-2118 によって支援された。 0.40
We would like to thank the other members of the Autonomous Robotic Manipulation Lab at the University of Michigan for their insightful discussions and feedback. 私たちはミシガン大学の自律ロボットマニピュレーションラボの他のメンバーに、洞察に富んだ議論とフィードバックを感謝します。 0.64
REFERENCES [1] I. Armeni, A. Sax, A. R. Zamir, and S. Savarese. 参考 I. Armeni, A. Sax, A. R. Zamir, S. Savarese 0.43
Joint 2D-3DSemantic Data for Indoor Scene Understanding. 室内シーン理解のための関節2D-3DSemantic Data 0.64
ArXiv e-prints, 2017. ArXiv e-prints, 2017年。 0.72
[2] Hagai Attias. [2]hagai attias である。 0.60
Planning by Probabilistic Inference. 確率論的推論による計画 0.69
In AISTATS, 2003. aistatsでは 2003. 0.36
[3] Lucas Barcelos, Alexander Lambert, Rafael Oliveira, Paulo Borges, Byron Boots, and Fabio Ramos. [3]Lucas Barcelos氏、Alexander Lambert氏、Rafael Oliveira氏、Paulo Borges氏、Byron Boots氏、Fabio Ramos氏。 0.37
Dual Online Stein Variational Inference for Control and Dynamics. 制御とダイナミクスのためのオンライン二段階変分推論 0.69
In RSS, 2021. 2021年、RSS。 0.65
[4] David M. Blei, Alp Kucukelbir, and Jon D. McAuliffe. David M. Blei氏、Alp Kucukelbir氏、Jon D. McAuliffe氏。 0.66
Variational inference: A review for statisticians. 変分推論:統計学者のレビュー。 0.69
Journal of the American Statistical Association, 2017. アメリカ統計学会、2017年。 0.48
[5] Camille Brasseur, Alexander Sherikov, Cyrille Collette, Dimitar Dimitrov, and Pierre-Brice Wieber. 5]カミーユ・ブラスール、アレクサンドル・シェリコフ、キュリーユ・コレット、ディミタル・ディミトロフ、ピエール=ブリス・ウィーバー。 0.55
A robust linear mpc approach to online generation of 3d biped walking motion. 3次元二足歩行運動のオンライン生成に対する頑健な線形mpcアプローチ 0.77
In Humanoids, 2015. 2015年、ヒューマノイド。 0.57
[6] Jan Carius, Ren´e Ranftl, Farbod Farshidian, and Marco Hutter. 6]Jan Carius、Ren ́e Ranftl、Farbod Farshidian、Marco Hutter。 0.61
Constrained stochastic optimal control with learned importance sampling: A path integral approach. 学習重要度サンプリングによる制約付き確率的最適制御:経路積分アプローチ。 0.84
IJRR, 2022. IJRR、2022年。 0.65
[7] Xi Chen, Diederik P. Kingma, Tim Salimans, Yan Duan, Prafulla Dhariwal, John Schulman, Ilya Sutskever, and Pieter Abbeel. 7]Xi Chen, Diederik P. Kingma, Tim Salimans, Yan Duan, Prafulla Dhariwal, John Schulman, Ilya Sutskever, Pieter Abbeel。
訳抜け防止モード: 7 ] xi chen, dieerik p. kingma, tim salimans. ヤン・ドゥアン、プラフラ・ダリイル、ジョン・シュルマン、イリヤ・スツヴァー。 そして ピエター・アブベエル
0.50
Variational lossy autoencoder. 可変損失オートエンコーダ。 0.73
In ICLR, 2017. 2017年、ICLR。 0.66
[8] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio. 8] Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio。 0.38
Density estimation using real NVP. 密度 実NVPを用いた推定。 0.75
In ICLR, 2017. 2017年、ICLR。 0.66
[9] Yeli Feng, Daniel Jun Xian Ng, and Arvind Easwaran. 9]Yeli Feng,Daniel Jun Xian Ng,Arvind Easwaran。 0.32
Improving variational autoencoder based out-of-distribution detection for embedded real-time applications. 組込みリアルタイムアプリケーションのための変分オートエンコーダに基づく分散検出の改善 0.70
ACM Trans. Embed. ACMトランス。 埋め込み。 0.62
Comput. Syst. Comput シスト。 0.41
, 2021. [10] Brian Ichter, James Harrison, and Marco Pavone. , 2021. Brian Ichter氏、James Harrison氏、Marco Pavone氏。 0.37
Learning In ICRA, sampling distributions for robot motion planning. icraで学ぶこと ロボット動作計画のためのサンプリング分布 0.63
pages 7087–7094, 05 2018. 7087-7094, 05頁。 0.52
[11] R. E. Kalman. 11] r. e. カルマン 0.57
A new approach to linear filtering and prediction 線形フィルタリングと予測の新しいアプローチ 0.69
problems. Journal of Basic Engineering, 1960. 問題だ 基礎工学誌、1960年。 0.65
[12] HJ Kappen and HC Ruiz. [12]HJ KappenとHC Ruiz。 0.38
Adaptive importance sampling for 適応的重要度サンプリング 0.83
control and inference. Journal of Statistical Physics, 2016. 制御と推論。 統計物理学誌、2016年。 0.74
[13] Diederik P. Kingma and Max Welling. 13] ディーデリク・p・キングマとマックス・ウェリング 0.54
Auto-encoding variational bayes. 自動エンコーディング変分ベイズ。 0.67
In Yoshua Bengio and Yann LeCun, editors, ICLR, 2014. yoshua bengio and yann lecun, editors, iclr, 2014年。 0.65
[14] Durk P Kingma and Prafulla Dhariwal. 14] durk p kingma と prafulla dhariwal です。 0.68
Glow: Generative flow Glow: 生成フロー 0.75
with invertible 1x1 convolutions. 可逆 1x1 畳み込みを持つ。 0.54
In NeurIPS, 2018. 2018年、ニューロピス。 0.50
[15] Marin Kobilarov. マリン・コビラロフ(Marin Kobilarov)。 0.59
Cross-entropy motion planning. クロスエントロピー運動計画。 0.69
IJRR, 2012. IJRR、2012年。 0.72
[16] Tin Lai, Weiming Zhi, Tucker Hermans, and Fabio Ramos. 16] Tin Lai, Weiming Zhi, Tucker Hermans, Fabio Ramos。 0.32
Parallelised diffeomorphic sampling-based motion planning. 並列化微分型サンプリングベースモーションプランニング 0.65
In CoRL, 2021. 2021年、CoRL。 0.69
[17] Alexander Lambert, Adam Fishman, Dieter Fox, Byron Boots, and Fabio Ramos. 17]アレクサンダー・ランバート、アダム・フィッシュマン、ディーター・フォックス、バイロン・ブーツ、ファビオ・ラモス。 0.64
Stein Variational Model Predictive Control. スタイン変分モデル予測制御 0.42
In CoRL, 2020. 2020年、CoRL。 0.70
[18] Linjun Li, Yinglong Miao, Ahmed H. Qureshi, and Michael C. Yip. 18]リー・リンジュン、yinglong miao、ahmed h. qureshi、michael c. yip。 0.60
Mpc-mpnet: Model-predictive motion planning networks for fast, near-optimal planning under kinodynamic constraints, 2021. mpc-mpnet: 高速で最適に近い計画のためのモデル予測型モーションプランニングネットワーク。 0.76
[19] Tobias Loew, Tirthankar Bandyopadhyay, Jason Williams, and Paulo Borges. Tobias Loew氏、Tirthankar Bandyopadhyay氏、Jason Williams氏、Paulo Borges氏。 0.33
PROMPT: Probabilistic Motion Primitives based Trajectory Planning. プロンプト:確率的運動プリミティブに基づく軌道計画。 0.71
In RSS, 2021. 2021年、RSS。 0.65
[20] Mustafa Mukadam, Xinyan Yan, and Byron Boots. [20]Mustafa Mukadam、Xinyan Yan、Byron Boots。 0.26
Gaussian process motion planning. ガウス プロセス・モーション・プランニング 0.60
In ICRA, 2016. 2016年、ICRA。 0.74
[21] Mustafa Mukadam, Jing Dong, Xinyan Yan, Frank Dellaert, and Byron Boots. [21]Mustafa Mukadam、Jing Dong、Xinyan Yan、Frank Dellaert、Byron Boots。 0.61
Continuous-time gaussian process motion planning via probabilistic inference. 確率的推論による連続時間ガウス過程運動計画 0.76
IJRR, 2018. IJRR、2018年。 0.72
[22] Eric T. Nalisnick, Akihiro Matsukawa, Yee Whye Teh, and Balaji Lakshminarayanan. [22]Eric T. Nalisnick, Matsukawa Akihiro, Yee Whye Teh, Balaji Lakshminarayanan 0.35
Detecting out-of-distribution inputs to deep generative models using a test for typicality. 典型性テストを用いた深部生成モデルへの分布外入力の検出 0.82
ArXiv e-prints, 2019. arxiv e-prints、2019年。 0.60
[23] Masashi Okada and Tadahiro Taniguchi. 【23】岡田正、谷口忠弘 0.33
Variational Inference MPC for Bayesian Model-based Reinforcement Learning. ベイズモデルに基づく強化学習のための変分推論mpc 0.71
In CoRL, 2020. 2020年、CoRL。 0.70
[24] Cristina Pinneri, Shambhuraj Sawant, Sebastian Blaes, Jan [24]Cristina Pinneri,Shambhuraj Sawant,Sebastian Blaes,Jan 0.38
英語(論文から抽出)日本語訳スコア
Achterhold, Joerg Stueckler, Michal Rolinek, and Georg Martius. Achterhold、Joerg Stueckler、Michal Rolinek、Georg Martius。 0.29
Sample-efficient cross-entropy method for real-time planning. リアルタイム計画のためのサンプル効率クロスエントロピー法 0.59
In CoRL, 2020. 2020年、CoRL。 0.70
[25] Thomas Power and Dmitry Berenson. 25]トーマス・パワーと ドミトリー・ベレンソン 0.60
Keep it simple: Dataefficient learning for controlling complex systems with simple models. 単純なモデルで複雑なシステムを制御するためのデータ効率の学習。 0.81
IEEE RA-L, 2021. IEEE RA-L, 2021。 0.42
[26] Ahmed H. Qureshi and Michael C. Yip. [26]Ahmed H. Qureshi、Michael C. Yip 0.37
Deeply informed neural ディープインフォメーションニューラル 0.56
sampling for robot motion planning. ロボット動作計画のためのサンプリング 0.79
In IROS, 2018. 2018年、IROS。 0.71
[27] Konrad Rawlik, Marc Toussaint, and Sethu Vijayakumar. [27]Konrad Rawlik、Marc Toussaint、Sehu Vijayakumar。 0.28
On stochastic optimal control and reinforcement learning by approximate inference. 近似推論による確率的最適制御と強化学習について 0.73
In IJCAI, 2013. 2013年、IJCAI。 0.55
[28] Danilo Rezende and Shakir Mohamed. 28] ダニロ・レゼンデとシャキル・モハメド 0.46
Variational inference with normalizing flows. 変分推論 流れの正規化です 0.60
In ICML, 2015. 2015年、ICML。 0.73
[29] F. Sabatino. 29] f・サバティーノ 0.42
Quadrotor control: modeling, nonlinear control クアドロター制御:モデリング、非線形制御 0.87
design, and simulation. 設計とシミュレーションです 0.61
2015. [30] Evangelos A. Theodorou and Emanuel Todorov. 2015. 30] エヴァンゲロス・テオドロウと エマニュエル・トドロフ 0.38
Relative entropy and free energy dualities: Connections to Path Integral and KL control. 相対エントロピーと自由エネルギー双対性:経路積分とkl制御への接続。 0.78
In CDC, 2012. 2012年、CDC。 0.69
[31] Emanuel Todorov. エマニュエル・トドロフ(Emanuel Todorov)。 0.56
General duality between optimal control and 最適制御と一般双対性 0.71
[32] Marc Toussaint. マルク・トゥーセイント(Marc Toussaint)。 0.49
Robot trajectory optimization using approximate 近似を用いたロボット軌道最適化 0.70
estimation. In CDC, 2008. 推定 2008年、CDC。 0.38
inference. In ICML, 2009. 推測だ 2009年、ICML。 0.54
[33] Marc Toussaint and Amos Storkey. 33] マルク・トーサンと エイモス・ストーキー 0.53
Probabilistic inference for solving discrete and continuous state Markov Decision Processes. 離散状態および連続状態マルコフ決定過程の確率論的推論 0.72
In ICML, 2006. 2006年、ICML入社。 0.80
[34] Ziyi Wang, Oswin So, Jason Gibson, Bogdan Vlahov, Manan Gandhi, Guan-Horng Liu, and Evangelos Theodorou. [34]Ziyi Wang, Oswin So, Jason Gibson, Bogdan Vlahov, Manan Gandhi, Guan-Horng Liu, Evangelos Theodorou。
訳抜け防止モード: [34 ]Ziyi Wang, Oswin So, Jason Gibson, Bogdan Vlahov, Manan Gandhi, Guan - Horng Liu エヴァンジェロ・テオドロ(Evangelos Theodorou)。
0.81
Variational Inference MPC using Tsallis Divergence. Tsallis Divergenceを用いた変分推定MPC 0.70
In RSS, 2021. 2021年、RSS。 0.65
[35] Joe Watson, Hany Abdulsamad, and Jan Peters. 35]ジョー・ワトソン、ハニー・アブドゥルサマド、ジャン・ピーターズ 0.50
Stochastic optimal control as approximate input inference. 近似入力推論としての確率最適制御 0.77
In CoRL, 2020. 2020年、CoRL。 0.70
[36] Grady Williams, Paul Drews, Brian Goldfain, James M. Rehg, and Evangelos A. Theodorou. [36]グラディ・ウィリアムズ、ポール・ドリューズ、ブライアン・ゴールドファイン、ジェームズ・m・レーグ、エヴァンジェロス・a・テオドロウ。 0.55
Information-Theoreti c Model Predictive Control: Theory and Applications to Autonomous Driving. 情報理論モデル予測制御:理論と自動運転への応用 0.76
IEEE Trans. Robot. ieeeトランス。 ロボット。 0.64
, 2018. [37] Christina Winkler, Daniel Worrall, Emiel Hoogeboom, and Max Welling. , 2018. [37]christina winkler、daniel worrall、emiel hoogeboom、max welling。 0.51
Learning likelihoods with conditional normalizing flows, 2019. 条件付き正規化フローによる学習可能性,2019。 0.61
[38] Zhisheng Xiao, Qing Yan, and Yali Amit. [38]Zhisheng Xiao, Qing Yan, Yali Amit 0.31
Likelihood regret: An out-of-distribution detection score for variational auto-encoder. likelihood regret: 変分オートエンコーダの分散検出スコア。 0.66
In NeurIPS, 2020. 2020年、NeurIPS。 0.70
[39] Clark Zhang, Jinwook Huh, and Daniel D. Lee. [39]クラーク・ザン、ジンウォク、ダニエル・d・リー。 0.52
Learning implicit sampling distributions for motion planning. 暗黙の学習 動き計画のためのサンプリング分布 0.77
In IROS, 2018. 2018年、IROS。 0.71
英語(論文から抽出)日本語訳スコア
T(cid:89) t=0 T(第89回) t=0 0.45
(cid:90) APPENDIX (cid:90) 付録 0.40
A. Variational Inference for Finite-Horizon Stochastic Optimal Control a. 有限ホライゾン確率的最適制御に対する変分推論 0.62
The variational posterior over trajectories is defined by the 軌道上の変動の後方は、その値によって定義される 0.60
dynamics and the variational posterior over actions: ダイナミックスと後続行動の変動 0.47
q(τ|x0) = q(X, U|x0) q(τ|x0) = q(X, U|x0) 0.39
= p(X|U, x0)q(U ) = p(X|U, x0)q(U ) 0.47
= q(U ) p(xt+1|xt, ut) = q(u) p(xt+1|xt, ut) 0.39
(15) the dependence on the initial state x0 for (15) 初期状態 x0 への依存性 0.59
We will omit convenience. 私たちは便宜を省きます。 0.40
(cid:90) KL (q(τ )||p(τ|o = 1)) = (cid:90) KL (q(τ )||p(τ|o = 1)) = 0.43
q(τ ) log p(X|U )q(U )p(o = 1) q(τ ) ログ p(X|U )q(U )p(o = 1) 0.63
p(o = 1|X, U )p(X|U )p(U ) p(o = 1|X, U )p(X|U )p(U ) 0.48
dXdU q(τ ) dXdU q(τ) である。 0.51
p(τ|o = 1) p(τ|o = 1) 0.46
dτ (16) = q(X, U ) log dτ (16) = q(x, u) ログ 0.49
Since p(o = 1) on the numerator does not depend on U, when we minimize the above divergence it can be dropped. 数値演算子上の p(o = 1) は U に依存しないので、上述の発散を最小限に抑えることができる。 0.68
The result is minimizing the below quantity, the variational free energy F. F = 結果は以下の量、変動自由エネルギー f = f を最小化する。 0.81
q(X, U ) log q(x, u) ログ 0.71
dXdU (cid:90) dXdU (cid:90) 0.41
q(U ) (17) q(u) である。 (17) 0.51
p(o = 1|X, U )p(U ) p(o = 1|X, U )p(U ) 0.49
= −Eq(X,U ) [log p(o|X, U ) + log p(U ) − log q(U )] = Eq(X,U ) [J(X, U )] + KL(q(U )||p(U )) = Eq(X,U ) = −Eq(X,U ) [log p(o|X, U ) + log p(U ) − log q(U )] = Eq(X,U ) [J(X,U )] + KL(q(U )||p(U )) = Eq(X,U )) 0.45
(cid:105) (cid:104) ˆJ(X, U ) + log q(U ) (cid:105) (cid:104) >J(X, U ) + log q(U ) 0.45
(18) (19) (20) (18) (19) (20) 0.43
For the last two expressions we have used our formulation that the p(o = 1|X, U ) = exp(−J(X, U )), where J is the trajectory cost, and we have incorporated the deviation from the prior into the cost function. 最後の2つの式については、p(o = 1|X, U ) = exp(−J(X, U )) という式を使いました。
訳抜け防止モード: 最後の2つの式については、p(o = 1|X) という定式化を使いました。 U ) = exp(−J(X, U ) ) ここで J は軌道コストである。 前者からの偏差を コスト関数に組み入れました
0.75
For example, a zero-mean Gaussian prior on the controls can be equivalently expressed as a squared cost on the magnitude of the controls. 例えば、制御に先立つゼロ平均ガウシアンは、制御の大きさの2乗コストとして等価に表現することができる。 0.74
B. Training & Architecture Details B.トレーニングとアーキテクチャの詳細 0.83
Fig. 6. The architecture for both the prior flow and the control sequence posterior flow, based on [8] and [37], showing a mapping from arbitrary Y to Y’. 図6。 8] と [37] に基づいて、先行フローと制御シーケンスの両方の後方フローのアーキテクチャは、任意の y から y’ へのマッピングを示している。 0.69
Each flow consists of L chained transformation blocks. 各流れはL鎖変換ブロックからなる。 0.85
A transformation block consists of a conditional coupling layer, a batch norm layer, and a linear layer. 変換ブロックは、条件結合層と、バッチノルム層と、線形層とからなる。 0.64
There is a final conditional coupling layer on the output. 出力には最終的な条件付き結合層がある。 0.79
For the vae prior, there is no context therefore we use standard coupling layers and not conditional coupling layers. そのため、標準的な結合層は使用せず、条件付き結合層も使用していません。 0.76
Planar Navigation 3D 12DoF Quadrotor 平面ナビゲーション 3D 12DoFクアドロレータ 0.72
1 − epoch #epochs epoch 1 − epoch #epochs epoch 0.42
500 #epochs 500 #epochs 0.43
1 1000 1 × 10−3 1 1000 1 × 10−3 0.41
1 1000 1 × 10−3 1 1000 1 × 10−3 0.41
0.9 every 50 epochs 50エポックごとに0.9 0.53
Variable control peturbation Σe 変数 ペトルベーション制御σe 0.69
α β # epochs Initial learning rate Learning rate decay α β #時代 初期学習率学習率の減衰 0.61
# Training environments # (x0, xG) per training env. #訓練環境 # (x0, xg) トレーニング env 当たり。 0.76
h dim a b フッ ディム あ b 0.47
VAE training epochs pφ(h) flow depth L VAEトレーニングによるpφ(h)流深度Lの評価 0.72
fζ flow depth L 10000 100 64 5 1 64 100 4 10 TABLE III フロー深さl 10000 100 64 5 1 64 100 4 10 TABLE III 0.52
EXPERIMENT. 20000 100 256 5 1 実験。 20000 100 256 5 1 0.45
1024 100 4 10 1024 100 4 10 0.42
TRAINING AND ARCHITECTURE HYPERPARAMETERS FOR EACH それぞれのトレーニングとアーキテクチャのハイパーパラメータ 0.44
1) Hyperparameter Tuning: There are several hyperparameters to tune in our approach. 1) ハイパーパラメータチューニング: このアプローチにはチューニングするハイパーパラメータがいくつかあります。 0.77
The scalar a in equation 11 was tuned so that aLV AE and Lf low were of approximately similar magnitude. 方程式11のスカラーaは、aLV AEとLf低がほぼ同様の大きさとなるように調整された。 0.59
The scalar b in equation 14 was selected to be equal to the dimensionality of the SDF observation divided by the dimensionality of the latent environment embedding. 方程式14のスカラーbは、潜伏環境埋め込みの寸法によって分割されたSDF観測の寸法と等しいように選択された。 0.72
This value was chosen initially to make the projection loss similar across the quadcopter and the double integrator, and we found this automatic tuning worked well in practice. この値は最初、クアッドコプターとダブルインテグレータで投射損失を類似させるために選択され、この自動調整は実際にうまく機能した。 0.70
Hyperparameters α, β together control the trade-off between entropy and optimality. ハイパーパラメータ α, β はエントロピーと最適性の間のトレードオフを制御する。 0.67
We kept β fixed and tuned only α. βを固定しαのみを調整した。 0.74
To tune α, for each experiment we performed a grid search and selected the value of α that resulted in the best performance in the training environment when used with FlowMPPI. αをチューニングするため,実験毎に格子探索を行い,FlowMPPIを用いた場合のトレーニング環境で最高の性能を示すαの値を選択した。 0.82
C. Environment details The environments are 4m× 4m, and generated as occupancy grids, from which we compute the SDF. C.環境の詳細 環境は4m×4mであり、占有格子として生成され、SDFを計算する。 0.76
For each training environment, we randomly sample 100 start & goal pairs such that they are always collision free, and within the bounds of the voxel grid. トレーニング環境ごとに,100個の開始対とゴール対をランダムにサンプリングし,常に衝突しない状態で,ボクセルグリッドのバウンド内に配置する。 0.78
We sample start velocities from a Normal distribution, and set the goal velocity to be zero. 通常の分布から開始速度をサンプリングし、目標速度をゼロに設定する。 0.71
During evaluation, for both the in-distribution and out-of-distribution environments, we sample 100 start, goal and environment tuples and evaluate all methods on these tuples. 評価では,分布外環境と分布外環境の両方において,100のスタート,ゴール,環境タプルをサンプリングし,これらのタプル上のすべてのメソッドを評価する。 0.66
The exception to this is the real-world environments, where we keep the environments fixed and sample 100 start and goal pairs per real-world environment and evaluate all methods on these pairs. 例外は、実環境環境を固定し、実環境環境当たり100個の開始とゴールペアをサンプリングし、これらのペアのすべてのメソッドを評価する実環境環境です。 0.78
To ensure the navigation problem is non-trivial, we sample starts and goals that are at least 4m away. ナビゲーションの問題が簡単でないことを保証するため、少なくとも4m離れたスタートとゴールをサンプリングする。 0.60
1) Real-world environments: The two real world environments are taken from area 3 from the 2D-3D-S dataset [1]. 1) 実世界の環境: 2D-3D-Sデータセット[1]から領域3から実世界の環境を取り出す。 0.79
To generate the two environments, we used the 3D mesh from the dataset and defined a subset of the area to be the environment. 2つの環境を生成するために、データセットから3dメッシュを使用し、環境となる領域のサブセットを定義しました。 0.76
We then generated an occupancy grid by densely sampling the mesh, which we then used to compute the SDF. 次に,メッシュを高密度にサンプリングして占有格子を生成し,SDFの計算に使用した。 0.70
英語(論文から抽出)日本語訳スコア
Controller Variable Planar Navigation コントローラ 変数 平面ナビゲーション 0.76
12DoF Quadrotor 12DoFクアドロレータ 0.73
2) Planar Navigation: The dynamics for the planar naviga- 2)平面ナビゲーション:平面ナビガのダイナミクス- 0.75
tion system are x 調度システムは シュクス 0.51
y ˙x ˙y y (複数形 ys) 0.35
 t+1 =  t+1 = 0.38
1 0 ∆t 0 1 0 0 0.95 0 0 第1回0回。 0 1 0 0 0.95 0 0 0.38
0 0  x 0 0  シュクス 0.41
y ˙x ˙y y (複数形 ys) 0.35
 t  0  t  0 0.43
0 0 0 ∆t 0 0 ∆t 0 0 0 {\displaystyle 0} は 0 0 {\displaystyle 0} である。 0.31
 u (21) + 0 ∆t 0 シュウ(21) + 0 が 0 である。 0.49
0.95 MPPI SVMPC 0.95 MPPI SVMPC 0.38
iCEM λ Σ iterations iCEM λ Σ イテレーション 0.44
Σ # particles Learning rate iterations Σ #粒子学習率 イテレーション 0.56
warm-up iterations Σ warm + up Σ 0.34
noise parameter % elites ノイズパラメータ %エリート 0.75
% kept elites iterations momentum 5%のエリートが 反復運動量 0.56
3) 12DoF Quadrotor: The dynamics for the 12DoF quadro- 3)12DoFクアドロレータ:12DoFクアドロのダイナミクス- 0.77
tor are from Sabatino [29] and are given by tor は sabatino [29] のもので、 0.46
FlowMPPI λ Σ FlowMPPI λ Σ 0.42
iterations M Proj. イテレーション M プロ。 0.46
learn. rate 1 × 10−2 学ぶ。 rate 1 × 10−2 0.50
0.75 2 10 1×10−2 0.75 2 10 1×10−2 0.31
1 0.9 1 1 4 1 4 25 0.75 2.5 0.1 0.3 4 0.1 1 1 1 10 1 0.9 1 1 4 1 4 25 0.75 2.5 0.1 0.3 4 0.1 1 1 1 10 0.72
1 0.5 4 0.5 4 0.5 4 25 0.5 3 0.1 0.5 4 0.1 1 1 0.5 4 0.5 4 0.5 4 25 0.5 3 0.1 0.5 4 0.1 1 0.31
  0.42
x y z p q r ˙x ˙y ˙z ˙p ˙q ˙r x y z p q r , x , y ,z ,p ,q ,r である。 0.53
  0.42
t+1  t+1  0.36
x y z p q r ˙x ˙y ˙z ˙p ˙q ˙r x y z p q r , x , y ,z ,p ,q ,r である。 0.53
  0.42
t = + ∆t  t = +-t  0.39
˙x ˙y ˙z ザイ ザイ ザイ ザイ 0.18
˙p + ˙qs (p)t ~p + ~qs (p)t 0.49
(q) + ˙rc (p)t (q)+(rc) (p)t 0.41
(q) ˙qc (p) − ˙rs ˙p s (q) シュクック (p) − が成立する。 0.51
(p) c (p)) c (q) c (p)c (p)c (q)c 0.35
(q) + ˙r ˙q (q) +- シュク 0.37
−(s (p)s (r) + c -(s) (p) (r) + c 0.37
(r)c (p)s (q))K u1 −(c (r)c (p) (q))k u1 −(c) 0.41
(r)s (p) − c (r) (p) − c 0.38
(p)s (r)s (q))K u1 (p) (r) (q)K u1 0.35
m m g − c (p)s M M g − c (p) 0.38
(q))K u1 (Iy−Iz) ˙q ˙r+Ku2 (Iz−Ix) ˙p ˙r+Ku3 (Ix−Iy) ˙p ˙q+Ku4 (q))K u1 (Iy−Iz) ^q ^r+Ku2 (Iz−Ix) ^p ^r+Ku3 (Ix−Iy) ^p ^q+Ku4 0.27
Ix Iy m  Ix いえ M  0.40
t (22) Where c(p), s(p), t(p) are cos, sin, tan functions respectively. t (22) c(p), s(p), t(p) はそれぞれ cos, sin, tan 関数である。 0.76
We use a parameters m = 1, Ix = 0.5, Iy = 0.1, Iz = 0.3, K = 5, g = −9.81. パラメータ m = 1, Ix = 0.5, Iy = 0.1, Iz = 0.3, K = 5, g = −9.81 を用いる。 0.89
The quadrotor geometry is modeled as a cylinder with radius 0.1m and height 0.05m. 四角形形状は半径0.1m、高さ0.05mのシリンダーとしてモデル化されている。 0.50
Iz D. Controller details イズ D. Controllerの詳細 0.74
Variable Control Horizon H Trial length T Control prior σ Dynamics ∆t 変数 制御地平線h σ動力学以前の試行長さT制御 0.73
Planar Navigation 40 100 1 平面ナビゲーション 40 100 1 0.59
0.05 12DoF Quadrotor 0.05 12DoFクアドロレータ 0.51
40 100 4 0.025 40 100 4 0.025 0.36
CONTROLLER AGNOSTIC PARAMETERS USED FOR THE EVALUATIONS 評価に用いる制御装置の音響パラメータ 0.49
TABLE IV CONTROLLER HYPERPARAMETERS USED FOR THE EXPERIMENTS FOR BOTH テーブルIV 両方の実験に用いるコントローラハイパーパラメータ 0.48
OUR PROPOSED METHOD AND THE BASELINES. 提案方法およびそのベースライン。 0.42
TABLE V E. Algorithms テーブルV E.アルゴリズム 0.70
for i ∈ {k, ..., K} do i ∈ {k, ..., K} の場合、 0.77
Algorithm 2 Sample from Control Sequence Posterior with Perturbation 1: function SAMPLEPERTU(C, Σ, K) 2: 3: 4: 5: 6: 7: アルゴリズム 2 摂動を考慮した制御系列後部からのサンプル 1: function SAMPLEPERTU(C, Σ , K) 2: 3: 4: 5: 6: 7: 0.88
Zk ∼ N (0, I) k ∼ N (0, Σ) Uk ← fζ(Zk, C) + k ˆZk ← f−1 qζ(Uk|C) ← from ˆZk via eq. zk(英語版) (0, i) sk(英語版) (0, σ) sk(英語版) (0, σ) sk(英語版) sk(英語版) (zk, c) + sk(英語版) sk(英語版) sk(英語版) は eq(英語版) を経由し、zk(英語版) を経由する。
訳抜け防止モード: zk - n ( 0 , i ) - zk - n ( 0 , i ) σ, ) uk (zk, c) + (zk, c) + (f−1 q) (uk|c) は、zk から eq を経由したものである。
0.52
(5) (Uk, C) (5) (Uk,C) 0.42
ζ 8: return {Uk, qζ(Uk|C)}K ζ 8: return {uk, q\(uk|c)}k を返します。 0.50
k=1 Algorithm 3 Flow Training Inputs: N iterations, K samples, Θ1 = {θ1, ψ1, φ1, ω1, ζ 1} initial parameters, control perturbation covariance Σ, learning rate η, loss hyperparameters (α, β) 1: for n ∈ {1, ..., N} do 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: k=1 である。 アルゴリズム3 フロートレーニング 入力: N 反復, K サンプル, >1 = {θ1, >1, φ1, ω1, >1} 初期パラメータ, 制御摂動共分散 Σ , 学習率 η, 損失ハイパーパラメータ (α, β) 1: for n ∈ {1, ..., N} do 2: 3: 4: 5: 7: 8: 10: 11
訳抜け防止モード: k=1 である。 アルゴリズム3 フロートレーニング入力 : N 反復,K サンプル, Θ1 = { θ1, ψ1, φ1, ω1, ζ 1 } initial parameters, n ∈ { 1 に対して、制御摂動共分散 Σ , 学習率 η, 損失ハイパーパラメータ (α, β ) 1 : を制御する。 ... , N } do 2 : 3 : 4 : 5 : 6 : 7 : 8 : 9 : 10 : 11 :
0.61
h ← qθ(h|E) ˆE ← pψ(E|h) Compute log pφ(h) via eq. pφ(h) を eq で計算し、pφ(h) を eq で計算する。 0.69
(5) Compute LV AE C ← gω(x0, xG, h) {Uk, qζ(Uk|C)}K L ← LV AE for k ∈ {1, ..., K} do (5) k ∈ {1, ..., K} に対する計算 LV AE C > gω(x0, xG, h) {Uk, q>(Uk|C)}K L > LV AE 0.84
wk ← from ({Ui, log qζ(Ui|C)}K L ← L − wk · log qζ(Uk|C) ({Ui, log q'(Ui|C)}K L > L − wk · log q'(Uk|C)) 0.37
k=1 ← SAMPLEPERTU(C, Σ, K) k=1, SAMPLEPERTU(C, Σ, K) 0.93
i=1, α, β}) via (9) i=1, α, β}) を介して (9) 0.86
. 12: Θn+1 ← Θn − η ∂L . 12: θn+1 は θn − η ∂l である。 0.43
∂Θ ∂Θ 0.39
英語(論文から抽出)日本語訳スコア
Algorithm 4 Projection Inputs: N iterations, K samples, θ, φ, ω, ζ parameters, control perturbation covariance Σ, learning rate η, loss hyperparameters (α, β) 1: h1 ← qθ(h|E) 2: for n ∈ {1, ..., N} do 3: 4: 5: 6: 7: 8: 9: アルゴリズム 4 射影入力: N 反復、K サンプル、θ, φ, ω, > パラメータ、制御摂動共分散 Σ , 学習率 η, 損失ハイパーパラメータ (α, β) 1: h1 > qθ(h|E) 2: for n ∈ {1, ..., N} do 3: 4: 5: 7: 8: 9: 9: 0.82
Compute log pφ(hn) via eq. eq による計算ログ pφ(hn) 。 0.84
(5) C ← gω(x0, xG, hn) {Uk, qζ(Uk|C)}K L ← −pφ(hn) for k ∈ {1, ..., K} do (5) c , gω(x0, xg, hn) {uk, q,(uk|c)}k l , −pφ(hn) for k ∈ {1, ..., k} do である。 0.86
wk ← from ({Ui, log qζ(Ui|C)}K L ← L − wk · log qζ(Uk|C) ({Ui, log q'(Ui|C)}K L > L − wk · log q'(Uk|C)) 0.37
k=1 ← SAMPLEPERTU(C, Σ, K) k=1, SAMPLEPERTU(C, Σ, K) 0.93
i=1, α, β}) via (9) i=1, α, β}) を介して (9) 0.86
10: hn+1 ← hn − η ∂L 10: hn+1 は hn − η ∂l である。 0.48
∂h F. Additional Results Projection loss LOOD + Lf low ∂h F.追加結果 射影損失LOOD+Lfロー 0.64
LOOD Lf low K=256 血液Lf低下症 K=256 0.40
Success 0.71 0.52 0.6 成功 0.71 0.52 0.6 0.51
Cost 3688 3859 3758 TABLE VI コスト 3688 3859 3758 テーブル vi 0.69
0.83 0.63 0.72 0.83 0.63 0.72 0.24
K=512 Success K=1024 K=512 成功 K=1024 0.46
Success Cost 3443 3704 3489 成功 原価344337043489 0.57
0.93 0.89 0.87 0.93 0.89 0.87 0.24
Cost 3200 3371 3226 コスト3200 3371 3226 0.81
ABLATION OF THE DIFFERENT LOSS TERMS IN FLOWMPPIPROJECT FOR flowmppiプロジェクトにおける異なる損失項のアブレーション 0.47
DIFFERENT SAMPLING BUDGETS FOR THE 12DOF QUADROTOR 12自由度クオードレータの異なるサンプリング特性 0.47
OUT-OF-DISTRIBUTION ENVIRONMENT 流通環境 0.44
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。