論文の概要: Learning to Reach, Swim, Walk and Fly in One Trial: Data-Driven Control
with Scarce Data and Side Information
- arxiv url: http://arxiv.org/abs/2106.10533v1
- Date: Sat, 19 Jun 2021 17:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 07:38:47.362869
- Title: Learning to Reach, Swim, Walk and Fly in One Trial: Data-Driven Control
with Scarce Data and Side Information
- Title(参考訳): 1つの試行でリーチ、水泳、ウォーク、フライに学ぶ - 不足データとサイド情報によるデータ駆動制御
- Authors: Franck Djeumou and Ufuk Topcu
- Abstract要約: 我々は、非常に厳しいデータ制限の下で未知の力学系に対する学習に基づく制御アルゴリズムを開発した。
データ不足にもかかわらず、このアルゴリズムは何百万もの環境相互作用で訓練された強化学習アルゴリズムに匹敵する性能を提供できることを示す。
高忠実なF-16航空機シミュレータと、リーチャー、スイマー、チーターのようなMuJoCoの環境の実験では、アルゴリズムの有効性が示されている。
- 参考スコア(独自算出の注目度): 24.330188770135273
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We develop a learning-based control algorithm for unknown dynamical systems
under very severe data limitations. Specifically, the algorithm has access to
streaming data only from a single and ongoing trial. Despite the scarcity of
data, we show -- through a series of examples -- that the algorithm can provide
performance comparable to reinforcement learning algorithms trained over
millions of environment interactions. It accomplishes such performance by
effectively leveraging various forms of side information on the dynamics to
reduce the sample complexity. Such side information typically comes from
elementary laws of physics and qualitative properties of the system. More
precisely, the algorithm approximately solves an optimal control problem
encoding the system's desired behavior. To this end, it constructs and refines
a differential inclusion that contains the unknown vector field of the
dynamics. The differential inclusion, used in an interval Taylor-based method,
enables to over-approximate the set of states the system may reach.
Theoretically, we establish a bound on the suboptimality of the approximate
solution with respect to the case of known dynamics. We show that the longer
the trial or the more side information is available, the tighter the bound.
Empirically, experiments in a high-fidelity F-16 aircraft simulator and
MuJoCo's environments such as the Reacher, Swimmer, and Cheetah illustrate the
algorithm's effectiveness.
- Abstract(参考訳): 超厳格なデータ制限下で未知力学系に対する学習ベースの制御アルゴリズムを開発した。
具体的には、アルゴリズムは単一の試行と進行中の試行からのみ、ストリーミングデータにアクセスすることができる。
データの不足にもかかわらず、一連の例を通して、このアルゴリズムは、何百万もの環境相互作用でトレーニングされた強化学習アルゴリズムに匹敵するパフォーマンスを提供できることを示した。
様々な側面情報を動的に活用してサンプルの複雑さを低減し、このような性能を実現している。
このような情報は通常、物理学の基本法則とシステムの質的性質から来る。
より正確には、アルゴリズムはシステムの望ましい振る舞いを符号化する最適制御問題を概ね解決する。
この目的のために、力学の未知のベクトル場を含む微分包含を構築し、洗練する。
微分包含はテイラーの手法で使われ、系が到達する可能性のある状態の集合を過度に近似することができる。
理論的には、既知の力学の場合に関して近似解の準最適性の境界を確立する。
試行期間が長ければ長いほど、あるいはより多くのサイド情報が得られるほど、縛りが強くなることを示す。
実証的な実験では、高忠実度F-16航空機シミュレータと、リーチャー、スイマー、チーターといったMuJoCoの環境がアルゴリズムの有効性を示している。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Continual Learning for Multimodal Data Fusion of a Soft Gripper [1.0589208420411014]
あるデータモダリティに基づいてトレーニングされたモデルは、異なるモダリティでテストした場合、しばしば失敗する。
異なるデータモダリティを漸進的に学習できる連続学習アルゴリズムを提案する。
我々は、アルゴリズムの有効性を、挑戦的なカスタムマルチモーダルデータセット上で評価する。
論文 参考訳(メタデータ) (2024-09-20T09:53:27Z) - Limits and Powers of Koopman Learning [0.0]
力学系は様々な科学にまたがって複雑で変化する振る舞いを研究する包括的方法を提供する。
クープマン作用素は、線形手法を用いた非線形力学の研究を可能にするため、支配的なアプローチとして現れてきた。
テキスト 動的システムの軌道データからクープマン作用素のスペクトル特性を頑健に学習することは可能か?
論文 参考訳(メタデータ) (2024-07-08T18:24:48Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems [6.612035830987298]
本稿では,最適設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
本ポリシーは,次のステップに関する情報を最大化し,適応探索アルゴリズムを実現する。
FLEXによる性能は競争力があり、計算コストも低い。
論文 参考訳(メタデータ) (2023-04-26T10:20:55Z) - Physics-Informed Kernel Embeddings: Integrating Prior System Knowledge
with Data-Driven Control [22.549914935697366]
カーネル埋め込みを用いたデータ駆動制御アルゴリズムに事前知識を組み込む手法を提案する。
提案手法は,カーネル学習問題におけるバイアス項として,システムダイナミクスの事前知識を取り入れたものである。
純粋にデータ駆動ベースライン上でのサンプル効率の向上と,我々のアプローチのアウト・オブ・サンプル一般化を実証する。
論文 参考訳(メタデータ) (2023-01-09T18:35:32Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - A Bayesian Detect to Track System for Robust Visual Object Tracking and
Semi-Supervised Model Learning [1.7268829007643391]
ニューラルネットワークの出力によってパラメータ化されたベイズ追跡・検出フレームワークにおける副次的問題について述べる。
本稿では,粒子フィルタを用いた物体状態推定のための近似サンプリングアルゴリズムを提案する。
粒子フィルタ推論アルゴリズムを用いて,間欠的なラベル付きフレーム上でのトラッキングネットワークの学習に半教師付き学習アルゴリズムを用いる。
論文 参考訳(メタデータ) (2022-05-05T00:18:57Z) - Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets
Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。
モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文 参考訳(メタデータ) (2021-06-03T08:35:10Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。