論文の概要: Explicitly Encouraging Low Fractional Dimensional Trajectories Via
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.11662v1
- Date: Mon, 21 Dec 2020 20:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 08:42:26.551045
- Title: Explicitly Encouraging Low Fractional Dimensional Trajectories Via
Reinforcement Learning
- Title(参考訳): 強化学習による低分数次元軌道の明示的促進
- Authors: Sean Gillen and Katie Byl
- Abstract要約: モデル自由強化学習エージェントによって誘導される軌道の次元性は,エージェント報酬信号にポストプロセッシング関数を追加することで影響できることを示す。
システムに付加されるノイズに対して寸法の低減が堅牢であることを検証するとともに, 改良されたエージェントは, 一般に, 騒音や押圧障害に対してより現実的に堅牢であることを示す。
- 参考スコア(独自算出の注目度): 6.548580592686076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key limitation in using various modern methods of machine learning in
developing feedback control policies is the lack of appropriate methodologies
to analyze their long-term dynamics, in terms of making any sort of guarantees
(even statistically) about robustness. The central reasons for this are largely
due to the so-called curse of dimensionality, combined with the black-box
nature of the resulting control policies themselves. This paper aims at the
first of these issues. Although the full state space of a system may be quite
large in dimensionality, it is a common feature of most model-based control
methods that the resulting closed-loop systems demonstrate dominant dynamics
that are rapidly driven to some lower-dimensional sub-space within. In this
work we argue that the dimensionality of this subspace is captured by tools
from fractal geometry, namely various notions of a fractional dimension. We
then show that the dimensionality of trajectories induced by model free
reinforcement learning agents can be influenced adding a post processing
function to the agents reward signal. We verify that the dimensionality
reduction is robust to noise being added to the system and show that that the
modified agents are more actually more robust to noise and push disturbances in
general for the systems we examined.
- Abstract(参考訳): フィードバック制御ポリシの開発において、機械学習の様々な現代的な手法を使用する際の重要な制限は、ロバスト性に関する保証(統計的にも)をいかなる形でも行うという点において、長期的なダイナミクスを分析するための適切な方法論がないことである。
その主な理由は、いわゆる次元の呪いと、結果として生じるコントロールポリシー自体のブラックボックスの性質が組み合わさったものである。
本稿では,これらの課題の1つをめざす。
系の完全状態空間は次元的にはかなり大きいかもしれないが、ほとんどのモデルベースの制御手法では、結果として生じる閉ループ系は、内部の低次元部分空間に急速に駆動される支配的ダイナミクスを示す。
この研究において、この部分空間の次元性はフラクタル幾何学、すなわち分数次元の様々な概念の道具によって捉えられると論じる。
次に,モデル自由強化学習エージェントによって誘導される軌道の次元性が,エージェント報酬信号に後処理関数を加えることに影響を及ぼすことを示した。
システムに付加されるノイズに対して寸法の低減が堅牢であることを検証するとともに, 改良されたエージェントは一般に, 騒音や押圧障害に対してより現実的に堅牢であることを示す。
関連論文リスト
- Interpretable and Efficient Data-driven Discovery and Control of Distributed Systems [1.5195865840919498]
強化学習(Reinforcement Learning, RL)は、高次元非線形力学を持つシステムにおいて、有望な制御パラダイムとして登場した。
PDE制御のためのデータ効率,解釈可能,スケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T18:26:19Z) - Deep Autoencoder with SVD-Like Convergence and Flat Minima [1.0742675209112622]
我々は,コルモゴロフ障壁を克服するために,学習可能な重み付きハイブリッドオートエンコーダを提案する。
トレーニングされたモデルは、他のモデルに比べて何千倍もシャープさが小さいことを実証的に見出した。
論文 参考訳(メタデータ) (2024-10-23T00:04:26Z) - Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space [2.527926867319859]
我々は、制御理論の文献から強力でよく理解された閉形式戦略を活用することが有望な道であると論じる。
既存の潜在空間モデルにおける3つの根本的な欠点は、これまでこの強力な組み合わせを妨げてきた。
これらすべての問題に同時に取り組む新しい結合ネットワーク(CON)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-13T00:11:09Z) - Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a
Good Way to Generalize Numerical Results? [66.52698983694613]
本稿では,バッキンガムの$pi$定理を,物理系の制御ポリシを汎用的な知識形式にエンコードするツールとして活用する。
本研究では,(1) パラメータの削減,(2) 特定のシステムに対して数値的に生成された制御ポリシを,入力変数と出力変数を適切にスケーリングすることにより,次元的に類似したシステムのサブセットに正確に転送可能であることを示す。
より複雑な高次元問題に対するポリシーを一般化するために、このアプローチがいかに実用的であるかは、まだわからないが、初期の結果は、それがaであることを示している。
論文 参考訳(メタデータ) (2023-07-29T00:51:26Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - An Intrusion Response System utilizing Deep Q-Networks and System
Partitions [0.415623340386296]
irs-partitionというIRSソフトウェアプロトタイプを導入・開発する。
非定常系の進化に追従するために移動学習を利用する。
論文 参考訳(メタデータ) (2022-02-16T16:38:20Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Pure Exploration in Kernel and Neural Bandits [90.23165420559664]
我々は、特徴表現の次元が腕の数よりもはるかに大きい帯域における純粋な探索について研究する。
そこで本研究では,各アームの特徴表現を低次元空間に適応的に埋め込む手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T19:51:59Z) - Limited-angle tomographic reconstruction of dense layered objects by
dynamical machine learning [68.9515120904028]
強い散乱準透明物体の有限角トモグラフィーは困難で、非常に不適切な問題である。
このような問題の状況を改善することにより、アーティファクトの削減には、事前の定期化が必要である。
我々は,新しい分割畳み込みゲート再帰ユニット(SC-GRU)をビルディングブロックとして,リカレントニューラルネットワーク(RNN)アーキテクチャを考案した。
論文 参考訳(メタデータ) (2020-07-21T11:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。