論文の概要: Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems
- arxiv url: http://arxiv.org/abs/2402.14446v1
- Date: Thu, 22 Feb 2024 11:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:34:15.429998
- Title: Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems
- Title(参考訳): 反応拡散問題のモデルベース強化学習制御
- Authors: Christina Schenk, Aditya Vasudevan, Maciej Haranczyk, Ignacio Romero
- Abstract要約: 強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。
その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mathematical and computational tools have proven to be reliable in
decision-making processes. In recent times, in particular, machine
learning-based methods are becoming increasingly popular as advanced support
tools. When dealing with control problems, reinforcement learning has been
applied to decision-making in several applications, most notably in games. The
success of these methods in finding solutions to complex problems motivates the
exploration of new areas where they can be employed to overcome current
difficulties. In this paper, we explore the use of automatic control strategies
to initial boundary value problems in thermal and disease transport.
Specifically, in this work, we adapt an existing reinforcement learning
algorithm using a stochastic policy gradient method and we introduce two novel
reward functions to drive the flow of the transported field. The new
model-based framework exploits the interactions between a reaction-diffusion
model and the modified agent. The results show that certain controls can be
implemented successfully in these applications, although model simplifications
had to be assumed.
- Abstract(参考訳): 数学的および計算的なツールは意思決定プロセスにおいて信頼できることが証明されている。
特に近年では,高度なサポートツールとして機械学習ベースの手法が人気が高まっている。
制御問題を扱う場合、強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
複雑な問題に対する解決策を見つけるためのこれらの手法の成功は、現在の困難を克服するための新しい領域の探索を動機付けている。
本稿では,熱・疾患輸送における初期境界値問題に対する自動制御戦略の利用について検討する。
具体的には,既存の強化学習アルゴリズムを確率的ポリシー勾配法を用いて適応させ,トランスポートフィールドの流れを駆動する2つの新しい報酬関数を導入する。
新しいモデルベースのフレームワークは、反応拡散モデルと修正されたエージェントの相互作用を利用する。
結果は、モデル単純化を仮定しながらも、これらのアプリケーションで特定の制御をうまく実装できることを示した。
関連論文リスト
- regAL: Python Package for Active Learning of Regression Problems [0.0]
PythonパッケージregALでは、レグレッション問題に対するさまざまなアクティブな学習戦略を評価することができる。
我々は,レグレッション問題に対する様々なアクティブ学習戦略を評価することができるPythonパッケージregALを提案する。
論文 参考訳(メタデータ) (2024-10-23T14:34:36Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Active learning for regression in engineering populations: A risk-informed approach [0.0]
回帰は、データ中心のエンジニアリングアプリケーションで一般的な基本的な予測タスクである。
アクティブラーニング(英: Active Learning)は、リソース効率のよい特徴ラベルペアを優先的に取得する手法である。
提案手法は, 予測性能を維持しつつ, 必要な検査回数を削減し, 予測コストの観点から優れた性能を有することを示す。
論文 参考訳(メタデータ) (2024-09-06T15:03:42Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Recent Developments in Machine Learning Methods for Stochastic Control
and Games [3.3993877661368757]
近年,制御問題やゲームを解決するため,機械学習に基づく計算手法が開発されている。
我々は,高次元や構造が非常に複雑である場合においても,そのような問題を解く可能性を解き明かした深層学習手法に焦点をあてる。
本稿では,これらの手法について紹介し,機械学習と制御とゲームのクロスロードにおける最先端の成果を要約する。
論文 参考訳(メタデータ) (2023-03-17T21:53:07Z) - Reinforcement Learning in System Identification [0.0]
システム識別は、学習前方モデル、伝達関数、システムダイナミクスなどとも呼ばれるが、科学と工学の両方において長い伝統がある。
ここでは、この問題における強化学習の利用について考察する。
本稿では,この問題が強化学習問題として自然と音にどのように適合するかを詳述し,RLがこのような問題を解決する上で有望な手法であることを実証する実験結果を示す。
論文 参考訳(メタデータ) (2022-12-14T09:20:42Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。