論文の概要: Gradient-based Learning in State-based Potential Games for Self-Learning Production Systems
- arxiv url: http://arxiv.org/abs/2406.10015v1
- Date: Fri, 14 Jun 2024 13:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:35:39.750261
- Title: Gradient-based Learning in State-based Potential Games for Self-Learning Production Systems
- Title(参考訳): 自己学習型生産システムのための状態ベースの可能性ゲームにおけるグラディエントベース学習
- Authors: Steve Yuwono, Marlon Löppenberg, Dorothea Schwung, Andreas Schwung,
- Abstract要約: 本稿では,自己学習型分散生産システムにおける状態ベースポテンシャルゲーム(SbPG)の勾配に基づく最適化手法を提案する。
SbPGは自己最適化型分散マルチエージェントシステムの実現に有効であることが認識されている。
- 参考スコア(独自算出の注目度): 3.156133122658661
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we introduce novel gradient-based optimization methods for state-based potential games (SbPGs) within self-learning distributed production systems. SbPGs are recognised for their efficacy in enabling self-optimizing distributed multi-agent systems and offer a proven convergence guarantee, which facilitates collaborative player efforts towards global objectives. Our study strives to replace conventional ad-hoc random exploration-based learning in SbPGs with contemporary gradient-based approaches, which aim for faster convergence and smoother exploration dynamics, thereby shortening training duration while upholding the efficacy of SbPGs. Moreover, we propose three distinct variants for estimating the objective function of gradient-based learning, each developed to suit the unique characteristics of the systems under consideration. To validate our methodology, we apply it to a laboratory testbed, namely Bulk Good Laboratory Plant, which represents a smart and flexible distributed multi-agent production system. The incorporation of gradient-based learning in SbPGs reduces training times and achieves more optimal policies than its baseline.
- Abstract(参考訳): 本稿では,自己学習型分散生産システムにおける状態ベースポテンシャルゲーム(SbPG)の勾配に基づく新しい最適化手法を提案する。
SbPGは、分散マルチエージェントシステムの自己最適化と、グローバルな目的に対する協調的なプレイヤーの取り組みを促進する、確立された収束保証の実現に有効であると認識されている。
本研究は,SbPGにおける従来のアドホックなランダム探索に基づく学習を,より高速な収束とスムーズな探索ダイナミックスを目的とした,現代的な勾配に基づくアプローチに置き換えることを目的としている。
さらに、勾配学習の目的関数を推定するための3つの異なる変種を提案し、それぞれが検討中のシステムの固有特性に適合するように開発した。
提案手法を検証するため, スマートでフレキシブルな分散マルチエージェント生産システムであるバルク・グッド・ラボラトリー・プラント (Buck Good Laboratory Plant) の試験室に適用した。
SbPGsにおける勾配に基づく学習の導入は、トレーニング時間を短縮し、ベースラインよりも最適なポリシーを実現する。
関連論文リスト
- A Bayesian Unification of Self-Supervised Clustering and Energy-Based
Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。
目的関数が既存の自己教師型学習戦略より優れていることを示す。
また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - GEDI: GEnerative and DIscriminative Training for Self-Supervised
Learning [3.6804038214708563]
我々は最先端の自己教師型学習目標について検討し、確率学習に基づく統一的な定式化を提案する。
我々は、この組み合わせフレームワークをGEDIと呼び、これはGEnerativeおよびDIscriminative Trainingの略である。
GEDIはクラスタリング性能において,既存の自己教師型学習戦略よりも広いマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-12-27T09:33:50Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Partitioned Active Learning for Heterogeneous Systems [5.331649110169476]
本稿では,pgp(partitioned gp)モデルに基づく分断アクティブラーニング戦略を提案する。
グローバル検索は、アクティブラーニングの探索の側面を加速する。
ローカル検索は、ローカルGPモデルによって誘導されるアクティブ学習基準を利用する。
論文 参考訳(メタデータ) (2021-05-14T02:05:31Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。