論文の概要: Robust Deep Reinforcement Learning Scheduling via Weight Anchoring
- arxiv url: http://arxiv.org/abs/2304.10176v1
- Date: Thu, 20 Apr 2023 09:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 14:01:23.452522
- Title: Robust Deep Reinforcement Learning Scheduling via Weight Anchoring
- Title(参考訳): 重みアンカーを用いたロバスト深層強化学習スケジューリング
- Authors: Steffen Gracla, Edgar Beck, Carsten Bockelmann, Armin Dekorsy
- Abstract要約: 我々は、重みアンカーを用いてニューラルネットワークの望ましい振る舞いを培養し、固定する。
ウェイトアンカーは、他の学習問題の解に近い学習問題の解を見つけるために用いられる。
その結果,シミュレーション環境を増強する技術に匹敵する性能が得られた。
- 参考スコア(独自算出の注目度): 7.570246812206769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Questions remain on the robustness of data-driven learning methods when
crossing the gap from simulation to reality. We utilize weight anchoring, a
method known from continual learning, to cultivate and fixate desired behavior
in Neural Networks. Weight anchoring may be used to find a solution to a
learning problem that is nearby the solution of another learning problem.
Thereby, learning can be carried out in optimal environments without neglecting
or unlearning desired behavior. We demonstrate this approach on the example of
learning mixed QoS-efficient discrete resource scheduling with infrequent
priority messages. Results show that this method provides performance
comparable to the state of the art of augmenting a simulation environment,
alongside significantly increased robustness and steerability.
- Abstract(参考訳): シミュレーションから現実へのギャップを越える場合、データ駆動学習手法の堅牢性に疑問が残る。
重みアンカーは,連続学習から知られている手法であり,ニューラルネットワークにおける望ましい行動の育成と固定を行う。
ウェイトアンカーは、他の学習問題の解に近い学習問題の解を見つけるために用いられる。
これにより、望ましい行動を無視したり学習しないことなく、最適な環境で学習を行うことができる。
本手法は、QoS非効率な離散リソーススケジューリングと、頻度の低い優先度メッセージの併用を例に示す。
その結果,本手法はシミュレーション環境の強化技術に匹敵する性能を示し,ロバスト性とステアビリティを著しく向上させた。
関連論文リスト
- Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Continual Learning with Weight Interpolation [4.689826327213979]
継続的な学習には、モデルが以前のタスクからの知識を維持しながら、新しいタスクに適応する必要がある。
本稿では,重み強化手法を用いた継続学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T10:25:40Z) - Adaptive Robust Learning using Latent Bernoulli Variables [50.223140145910904]
破損したトレーニングセットから学習するための適応的なアプローチを提案する。
我々は,潜伏したベルヌーイ変数を持つ崩壊した非破壊標本を同定した。
結果の問題は変分推論によって解決される。
論文 参考訳(メタデータ) (2023-12-01T13:50:15Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Learning Algorithms for Regenerative Stopping Problems with Applications
to Shipping Consolidation in Logistics [8.111251824291244]
制御器が停止し、長期平均コストを最小限に抑えると、システムが再起動する再生停止問題について検討する。
従来のモデルベースのソリューションは、推定モデルのためのデータとコンピューティング戦略から基礎となるプロセスを推定する。
シミュレーションからニューラルネットワークのポリシーを学習する深層強化学習と模擬学習とを比較します。
論文 参考訳(メタデータ) (2021-05-05T20:45:46Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Active Learning for Gaussian Process Considering Uncertainties with
Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。
提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。
本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文 参考訳(メタデータ) (2020-04-23T02:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。