論文の概要: Design of Restricted Normalizing Flow towards Arbitrary Stochastic Policy with Computational Efficiency
- arxiv url: http://arxiv.org/abs/2412.12894v1
- Date: Tue, 17 Dec 2024 13:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:04.547880
- Title: Design of Restricted Normalizing Flow towards Arbitrary Stochastic Policy with Computational Efficiency
- Title(参考訳): 計算効率を考慮した任意確率ポリシーへの制限付き正規化フローの設計
- Authors: Taisuke Kobayashi, Takumi Aotani,
- Abstract要約: 正規化フロー(NF)を用いた制御ポリシーの新しい設計法を提案する。
強化学習(RL)では、通常は訓練可能なパラメータを持つ分布モデルとしてモデル化される。
RLベンチマークでは、Bit-RNFポリシーは以前のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 5.248564173595024
- License:
- Abstract: This paper proposes a new design method for a stochastic control policy using a normalizing flow (NF). In reinforcement learning (RL), the policy is usually modeled as a distribution model with trainable parameters. When this parameterization has less expressiveness, it would fail to acquiring the optimal policy. A mixture model has capability of a universal approximation, but it with too much redundancy increases the computational cost, which can become a bottleneck when considering the use of real-time robot control. As another approach, NF, which is with additional parameters for invertible transformation from a simple stochastic model as a base, is expected to exert high expressiveness and lower computational cost. However, NF cannot compute its mean analytically due to complexity of the invertible transformation, and it lacks reliability because it retains stochastic behaviors after deployment for robot controller. This paper therefore designs a restricted NF (RNF) that achieves an analytic mean by appropriately restricting the invertible transformation. In addition, the expressiveness impaired by this restriction is regained using bimodal student-t distribution as its base, so-called Bit-RNF. In RL benchmarks, Bit-RNF policy outperformed the previous models. Finally, a real robot experiment demonstrated the applicability of Bit-RNF policy to real world. The attached video is uploaded on youtube: https://youtu.be/R_GJVZDW9bk
- Abstract(参考訳): 本稿では,正規化フロー(NF)を用いた確率的制御ポリシーの設計手法を提案する。
強化学習(RL)では、通常は訓練可能なパラメータを持つ分布モデルとしてモデル化される。
このパラメタライゼーションが表現力の低い場合、最適なポリシーを取得することに失敗する。
混合モデルには普遍近似の能力があるが、冗長性が多すぎると計算コストが増大し、リアルタイムロボット制御の利用を考えるとボトルネックとなる可能性がある。
別のアプローチとして、単純な確率モデルから基底としての可逆変換のための追加パラメータを持つNFは、高い表現性および計算コストを期待できる。
しかし、NFは可逆変換の複雑さのために解析的に平均値を計算することができず、ロボットコントローラの配置後の確率的挙動を保っているため信頼性に欠ける。
そこで本稿では,可逆変換を適切に制限することにより,解析平均を達成する限定的なNF(RNF)を設計する。
また、この制限で障害となる表現性は、ビット-RNFと呼ばれる二モーダルな学生分布をベースとして回復する。
RLベンチマークでは、Bit-RNFポリシーは以前のモデルよりも優れていた。
最後に、実際のロボット実験により、Bit-RNFポリシーが現実世界に適用可能であることを実証した。
添付されたビデオは youtube にアップロードされる。
関連論文リスト
- Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [9.153197757307762]
確率拡散モデル(DM)は視覚生成のための強力なフレームワークである。
DMを効率的に調整する方法は重要な課題である。
本稿では,DMのための第0次情報調整パラダイムであるRecursive Likelihood Ratio (RLR)を提案する。
論文 参考訳(メタデータ) (2025-02-02T03:00:26Z) - RS-Reg: Probabilistic and Robust Certified Regression Through Randomized Smoothing [19.03441416869426]
我々は $ell$ norm を用いて入力データポイント上の上限を設定する方法を示す。
次に、出力が有界な回帰モデルの族を扱う際に、摂動入力の認証された上限を導出する。
シミュレーションにより, 理論結果の有効性を検証し, 単純な平滑化関数の利点と限界を明らかにする。
論文 参考訳(メタデータ) (2024-05-14T18:10:46Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Optimization Algorithm for Feedback and Feedforward Policies towards
Robot Control Robust to Sensing Failures [1.7970523486905976]
両FB/FFポリシーを同時に最適化するための新しい最適化問題を提案する。
数値シミュレーションとロボット実験において,従来のRLと異なる学習法則を用いても,提案手法が安定して構成ポリシーを最適化できることを確認した。
論文 参考訳(メタデータ) (2021-04-01T10:41:42Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Learning Likelihoods with Conditional Normalizing Flows [54.60456010771409]
条件正規化フロー(CNF)はサンプリングと推論において効率的である。
出力空間写像に対する基底密度が入力 x 上で条件づけられた CNF について、条件密度 p(y|x) をモデル化する。
論文 参考訳(メタデータ) (2019-11-29T19:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。