論文の概要: Few-shot model-based adaptation in noisy conditions
- arxiv url: http://arxiv.org/abs/2010.08397v1
- Date: Fri, 16 Oct 2020 13:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:57:14.950078
- Title: Few-shot model-based adaptation in noisy conditions
- Title(参考訳): 騒音条件下での少数ショットモデルに基づく適応
- Authors: Karol Arndt, Ali Ghadirzadeh, Murtaza Hazara, Ville Kyrki
- Abstract要約: 本稿では,不確実性を考慮したカルマンフィルタに基づくニューラルネットワークアーキテクチャを用いて,雑音条件下での動的モデルの少数ショット適応を実現することを提案する。
提案手法は,ブラックボックス適応LSTMベースライン上での少数ショット適応誤差を改善する。
提案手法は,適応前後のモデル隠れ状態を解析することにより,システム解析を可能にする。
- 参考スコア(独自算出の注目度): 15.498933340900606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot adaptation is a challenging problem in the context of
simulation-to-real transfer in robotics, requiring safe and informative data
collection. In physical systems, additional challenge may be posed by domain
noise, which is present in virtually all real-world applications. In this
paper, we propose to perform few-shot adaptation of dynamics models in noisy
conditions using an uncertainty-aware Kalman filter-based neural network
architecture. We show that the proposed method, which explicitly addresses
domain noise, improves few-shot adaptation error over a blackbox adaptation
LSTM baseline, and over a model-free on-policy reinforcement learning approach,
which tries to learn an adaptable and informative policy at the same time. The
proposed method also allows for system analysis by analyzing hidden states of
the model during and after adaptation.
- Abstract(参考訳): ロボット工学におけるシミュレーションから現実への移動の文脈では、少数ショット適応は困難な問題であり、安全で情報的なデータ収集を必要とする。
物理システムでは、事実上全ての実世界のアプリケーションに存在するドメインノイズによって追加の課題が発生する可能性がある。
本稿では,不確実性を考慮したカルマンフィルタに基づくニューラルネットワークアーキテクチャを用いて,雑音条件下での動力学的モデルのマイズショット適応を行う。
提案手法は,ブラックボックス適応LSTMベースラインと,適応的かつ情報的政策を同時に学習しようとするモデルなしのオンライン強化学習手法を用いて,ドメインノイズを明示的に処理し,少数ショット適応誤差を改善する。
提案手法は,適応前後のモデル隠れ状態を解析することにより,システム解析を可能にする。
関連論文リスト
- PrivilegedDreamer: Explicit Imagination of Privileged Information for Rapid Adaptation of Learned Policies [7.376615925443845]
モデルに基づく強化学習フレームワークであるPrivlegedDreamerを紹介する。
5つのHIP-MDPタスクに関する実証分析により、PrivlegedDreamerは最先端のモデルベース、モデルフリー、do-main適応学習アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T02:46:02Z) - Fuzzy Model Identification and Self Learning with Smooth Compositions [1.9573380763700716]
本稿では,動的システムのためのスムーズなモデル同定と自己学習戦略を開発する。
我々は,モデルが連続的かつ滑らかな表面上のシステムの変化と変化に従うように,この問題を解決しようと試みてきた。
論文 参考訳(メタデータ) (2024-12-31T20:19:02Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Decision-Focused Model-based Reinforcement Learning for Reward Transfer [27.899494428456048]
本稿では,報酬関数の変化に頑健でありながら高いリターンを達成する遷移モデルを学習する,新しいロバストな決定中心(RDF)アルゴリズムを提案する。
我々は、様々なシミュレーターと実際の患者データに基づいて、RDFがパーソナライズされたポリシーを計画するのに使えるシンプルで効果的なモデルを学ぶことができるという理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-04-06T20:47:09Z) - PointFix: Learning to Fix Domain Bias for Robust Online Stereo
Adaptation [67.41325356479229]
本稿では,PointFixと呼ばれるメタラーニングフレームワークに補助的なポイント選択型ネットワークを導入することを提案する。
簡単に言えば、我々の補助的ネットワークは、メタグラディエントを通じて局所情報を効果的にバックプロパゲートすることで、局所的変異を集中的に修正することを学ぶ。
このネットワークはモデルに依存しないため、プラグイン・アンド・プレイ方式であらゆる種類のアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2022-07-27T07:48:29Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。