論文の概要: Few-shot model-based adaptation in noisy conditions
- arxiv url: http://arxiv.org/abs/2010.08397v1
- Date: Fri, 16 Oct 2020 13:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:57:14.950078
- Title: Few-shot model-based adaptation in noisy conditions
- Title(参考訳): 騒音条件下での少数ショットモデルに基づく適応
- Authors: Karol Arndt, Ali Ghadirzadeh, Murtaza Hazara, Ville Kyrki
- Abstract要約: 本稿では,不確実性を考慮したカルマンフィルタに基づくニューラルネットワークアーキテクチャを用いて,雑音条件下での動的モデルの少数ショット適応を実現することを提案する。
提案手法は,ブラックボックス適応LSTMベースライン上での少数ショット適応誤差を改善する。
提案手法は,適応前後のモデル隠れ状態を解析することにより,システム解析を可能にする。
- 参考スコア(独自算出の注目度): 15.498933340900606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot adaptation is a challenging problem in the context of
simulation-to-real transfer in robotics, requiring safe and informative data
collection. In physical systems, additional challenge may be posed by domain
noise, which is present in virtually all real-world applications. In this
paper, we propose to perform few-shot adaptation of dynamics models in noisy
conditions using an uncertainty-aware Kalman filter-based neural network
architecture. We show that the proposed method, which explicitly addresses
domain noise, improves few-shot adaptation error over a blackbox adaptation
LSTM baseline, and over a model-free on-policy reinforcement learning approach,
which tries to learn an adaptable and informative policy at the same time. The
proposed method also allows for system analysis by analyzing hidden states of
the model during and after adaptation.
- Abstract(参考訳): ロボット工学におけるシミュレーションから現実への移動の文脈では、少数ショット適応は困難な問題であり、安全で情報的なデータ収集を必要とする。
物理システムでは、事実上全ての実世界のアプリケーションに存在するドメインノイズによって追加の課題が発生する可能性がある。
本稿では,不確実性を考慮したカルマンフィルタに基づくニューラルネットワークアーキテクチャを用いて,雑音条件下での動力学的モデルのマイズショット適応を行う。
提案手法は,ブラックボックス適応LSTMベースラインと,適応的かつ情報的政策を同時に学習しようとするモデルなしのオンライン強化学習手法を用いて,ドメインノイズを明示的に処理し,少数ショット適応誤差を改善する。
提案手法は,適応前後のモデル隠れ状態を解析することにより,システム解析を可能にする。
関連論文リスト
- Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Decision-Focused Model-based Reinforcement Learning for Reward Transfer [27.899494428456048]
本稿では,報酬関数の変化に頑健でありながら高いリターンを達成する遷移モデルを学習する,新しいロバストな決定中心(RDF)アルゴリズムを提案する。
我々は、様々なシミュレーターと実際の患者データに基づいて、RDFがパーソナライズされたポリシーを計画するのに使えるシンプルで効果的なモデルを学ぶことができるという理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-04-06T20:47:09Z) - PointFix: Learning to Fix Domain Bias for Robust Online Stereo
Adaptation [67.41325356479229]
本稿では,PointFixと呼ばれるメタラーニングフレームワークに補助的なポイント選択型ネットワークを導入することを提案する。
簡単に言えば、我々の補助的ネットワークは、メタグラディエントを通じて局所情報を効果的にバックプロパゲートすることで、局所的変異を集中的に修正することを学ぶ。
このネットワークはモデルに依存しないため、プラグイン・アンド・プレイ方式であらゆる種類のアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2022-07-27T07:48:29Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z) - Domain Curiosity: Learning Efficient Data Collection Strategies for
Domain Adaptation [16.539422751949797]
ドメインキュリオシティ — データの提供に明示的に最適化された探索的ポリシのトレーニング方法です。
ほとんどの好奇心のある方法とは対照的に、私たちのアプローチは学習に明示的に報いるため、環境騒音に対して堅牢です。
提案手法は,提案手法によって収集された環境動態について,モデルがどの程度学習できるかを比較することで評価する。
論文 参考訳(メタデータ) (2021-03-12T12:02:11Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。