論文の概要: Reinforcement Learning for Assignment problem
- arxiv url: http://arxiv.org/abs/2011.03909v1
- Date: Sun, 8 Nov 2020 06:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:28:26.498365
- Title: Reinforcement Learning for Assignment problem
- Title(参考訳): 課題解決のための強化学習
- Authors: Filipp Skomorokhov (1 and 2) and George Ovchinnikov (2) ((1) Moscow
Institute of Physics and Technology, (2) Skolkovo Institute of Science and
Technology)
- Abstract要約: 我々のシミュレータは環境の変化によって現実の問題に類似している。
そこで本研究では,Q-ラーニングに基づく手法を,全報酬の観点から,動的シミュレーションの数と,解析的欲求に基づく解に応用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is dedicated to the application of reinforcement learning combined
with neural networks to the general formulation of user scheduling problem. Our
simulator resembles real world problems by means of stochastic changes in
environment. We applied Q-learning based method to the number of dynamic
simulations and outperformed analytical greedy-based solution in terms of total
reward, the aim of which is to get the lowest possible penalty throughout
simulation.
- Abstract(参考訳): 本稿では,ニューラルネットワークを併用した強化学習のユーザスケジューリング問題の一般的な定式化への応用について述べる。
本シミュレータは,環境の確率的変化による実世界の問題に類似している。
我々は,Q-ラーニングに基づく手法を,シミュレーションを通して最小限のペナルティを得られることを目的とした,全報酬の観点から,動的シミュレーションの数と,解析的欲求に基づく解よりも優れた結果を得た。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Deep multitask neural networks for solving some stochastic optimal
control problems [0.0]
本稿では,最適制御問題のクラスについて考察し,ニューラルネットワークを用いた効果的な解法を提案する。
マルチタスクニューラルネットワークをトレーニングするために,タスク間の学習を動的にバランスさせる新しいスキームを導入する。
実世界のデリバティブ価格問題に関する数値実験を通じて,本手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-01-23T17:20:48Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Optimal Sets and Solution Paths of ReLU Networks [56.40911684005949]
最適なReLUネットワークの集合を特徴付ける分析フレームワークを開発した。
我々は、ReLUネットワークのニューラル化を継続する条件を確立し、ReLUネットワークに対する感度結果を開発する。
論文 参考訳(メタデータ) (2023-05-31T18:48:16Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [43.64498536409903]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Simulating Liquids with Graph Networks [25.013244956897832]
流体力学を学習するためのグラフニューラルネットワーク(GNN)について検討する。
以上の結果から,GNNなどの学習モデルでは,学習セットが他の問題固有の相関関係を欠きない限り,基礎となる力学を正確に学習できないことが示唆された。
論文 参考訳(メタデータ) (2022-03-14T15:39:27Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Accurately Solving Physical Systems with Graph Learning [22.100386288615006]
本稿では,グラフネットワークを持つ物理系に対する反復解法を高速化する新しい手法を提案する。
エンド・ツー・エンドで物理システムを学習することを目的とした既存の手法とは異なり、我々のアプローチは長期的な安定性を保証する。
本手法は,従来の反復解法の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-06T15:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。