論文の概要: Active Learning of Dynamics Using Prior Domain Knowledge in the Sampling Process
- arxiv url: http://arxiv.org/abs/2403.17233v1
- Date: Mon, 25 Mar 2024 22:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:16:39.647249
- Title: Active Learning of Dynamics Using Prior Domain Knowledge in the Sampling Process
- Title(参考訳): サンプリングプロセスにおける事前知識を用いたダイナミクスの能動的学習
- Authors: Kevin S. Miller, Adam J. Thorpe, Ufuk Topcu,
- Abstract要約: 本稿では,事前知識をサンプリングプロセスに明示的に組み込むことで,側面情報を活用する動的学習のための能動的学習アルゴリズムを提案する。
提案アルゴリズムは,観測データと側情報から導出される力学の非完全先行モデルとの間に高い経験的差を示す領域への探索を導く。
我々は,我々の能動学習アルゴリズムが,最大予測分散に対する明確な収束率を提供することで,基礎となる力学の一貫性のある推定値が得られることを厳密に証明する。
- 参考スコア(独自算出の注目度): 18.406992961818368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an active learning algorithm for learning dynamics that leverages side information by explicitly incorporating prior domain knowledge into the sampling process. Our proposed algorithm guides the exploration toward regions that demonstrate high empirical discrepancy between the observed data and an imperfect prior model of the dynamics derived from side information. Through numerical experiments, we demonstrate that this strategy explores regions of high discrepancy and accelerates learning while simultaneously reducing model uncertainty. We rigorously prove that our active learning algorithm yields a consistent estimate of the underlying dynamics by providing an explicit rate of convergence for the maximum predictive variance. We demonstrate the efficacy of our approach on an under-actuated pendulum system and on the half-cheetah MuJoCo environment.
- Abstract(参考訳): 本稿では,事前知識をサンプリングプロセスに明示的に組み込むことで,側面情報を活用する動的学習のための能動的学習アルゴリズムを提案する。
提案アルゴリズムは,観測データと側情報から導出される力学の非完全先行モデルとの間に高い経験的差を示す領域への探索を導く。
数値実験により,この戦略は高い不一致領域を探索し,モデルの不確実性を同時に低減しつつ学習を加速することを示した。
我々は,我々の能動学習アルゴリズムが,最大予測分散に対する明確な収束率を提供することで,基礎となる力学の一貫性のある推定値が得られることを厳密に証明する。
本研究は,非作動型振り子システムと半チータな MuJoCo 環境に対するアプローチの有効性を実証する。
関連論文リスト
- Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Deep Learning-based Analysis of Basins of Attraction [49.812879456944984]
本研究は,様々な力学系における盆地の複雑さと予測不可能性を特徴づけることの課題に対処する。
主な焦点は、この分野における畳み込みニューラルネットワーク(CNN)の効率性を示すことである。
論文 参考訳(メタデータ) (2023-09-27T15:41:12Z) - NTKCPL: Active Learning on Top of Self-Supervised Model by Estimating
True Coverage [3.4806267677524896]
ニューラル・タンジェント・カーネル・クラスタリング・プシュード・ラベル(NTKCPL)の新しいアクティブ・ラーニング・ストラテジーを提案する。
擬似ラベルとNTK近似を用いたモデル予測に基づいて経験的リスクを推定する。
提案手法を5つのデータセット上で検証し,ほとんどの場合,ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-07T01:43:47Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Structured Optimal Variational Inference for Dynamic Latent Space Models [14.87073454889439]
動的ネットワークの潜在空間モデルについて検討し、その目的は、潜在位置のペア内積を推定することである。
本稿では,動的ネットワークの時間依存特性を利用する構造的平均場変動推定フレームワークを提案する。
提案手法は,潜在ノードのスケールがノード的に学習される場合に容易に拡張できる。
論文 参考訳(メタデータ) (2022-09-29T22:10:42Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Domain Knowledge Integration By Gradient Matching For Sample-Efficient
Reinforcement Learning [0.0]
本研究では,モデルフリー学習者を支援するために,ダイナミックスからの目標勾配情報を活用することで,サンプル効率を向上させる勾配マッチングアルゴリズムを提案する。
本稿では,モデルに基づく学習者からの勾配情報と,抽象的な低次元空間におけるモデル自由成分とをマッチングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-28T05:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。