論文の概要: Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive
Control
- arxiv url: http://arxiv.org/abs/2108.10315v1
- Date: Fri, 20 Aug 2021 19:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:12:18.672715
- Title: Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive
Control
- Title(参考訳): 最適, モデル予測, 適応制御のためのAlphaZeroからの教訓
- Authors: Dimitri Bertsekas
- Abstract要約: 値空間とロールアウトの近似に関するAlphaZero/TDGammonの原理が決定論的かつ最適制御問題に広く適用されていることを示す。
これらの考え方は、モデル制御、適応制御、分散制御、ニューラルネットワークに基づく値とポリシー近似など、他の重要な方法論と効果的に統合することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we aim to provide analysis and insights (often based on
visualization), which explain the beneficial effects of on-line decision making
on top of off-line training. In particular, through a unifying abstract
mathematical framework, we show that the principal AlphaZero/TD-Gammon ideas of
approximation in value space and rollout apply very broadly to deterministic
and stochastic optimal control problems, involving both discrete and continuous
search spaces. Moreover, these ideas can be effectively integrated with other
important methodologies such as model predictive control, adaptive control,
decentralized control, discrete and Bayesian optimization, neural network-based
value and policy approximations, and heuristic algorithms for discrete
optimization.
- Abstract(参考訳): 本稿では,オフライントレーニングによるオンライン意思決定の効果を説明する分析と洞察(可視化に基づくものが多い)を提供することを目的としている。
特に、統一的な抽象数学的枠組みを通じて、値空間とロールアウトの近似に関するAlphaZero/TD-Gammonの原理が、離散的かつ連続的な探索空間の両方を含む決定論的および確率的最適制御問題に非常に広く適用されていることを示す。
さらに、これらのアイデアはモデル予測制御、適応制御、分散制御、離散およびベイズ最適化、ニューラルネットワークに基づく値とポリシー近似、離散最適化のためのヒューリスティックアルゴリズムといった他の重要な方法論と効果的に統合することができる。
関連論文リスト
- A successive approximation method in functional spaces for hierarchical optimal control problems and its application to learning [0.0]
本研究では,高次元非線形関数をモデル化するための点推定の学習問題について考察する。
デューコースにおける推定パラメータは、異なるモデル検証データセット上で許容できる予測精度を提供する。
最適化段階における一般化と正規化の両方を適切に考慮する枠組みを提供する。
論文 参考訳(メタデータ) (2024-10-27T22:28:07Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control [7.242569453287703]
まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの一般的なアプローチの比較研究を行う。
本結果は,最適性と学習時間の両方の観点から,オフライン教師あり学習の優位性を裏付けるものである。
最適フィードバック制御のための統一訓練パラダイムとして,プレトレインとファインチューン戦略を提案する。
論文 参考訳(メタデータ) (2022-11-29T05:07:13Z) - Introduction to Online Nonstochastic Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Decentralized Stochastic Optimization with Inherent Privacy Protection [103.62463469366557]
分散最適化は、現代の協調機械学習、分散推定と制御、大規模センシングの基本的な構成要素である。
データが関与して以降、分散最適化アルゴリズムの実装において、プライバシ保護がますます重要になっている。
論文 参考訳(メタデータ) (2022-05-08T14:38:23Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。