Fugu-MT 論文翻訳(概要): An Architecture for Deploying Reinforcement Learning in Industrial Environments

論文の概要: An Architecture for Deploying Reinforcement Learning in Industrial Environments

arxiv url: http://arxiv.org/abs/2306.01420v1
Date: Fri, 2 Jun 2023 10:22:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 15:45:17.755545
Title: An Architecture for Deploying Reinforcement Learning in Industrial Environments
Title（参考訳）: 強化学習を産業環境に展開するためのアーキテクチャ
Authors: Georg Sch\"afer, Reuf Kozlica, Stefan Wegenkittl, Stefan Huber
Abstract要約: OPC UAをベースとしたオペレーショナル・テクノロジー(OT)対応のRLアーキテクチャを提案する。我々は,汎用的なプラグアンドプレイ型アプローチでRLエージェントを交換するOPC UA情報モデルを定義する。おもちゃの例を解くことで、このアーキテクチャが最適なポリシーを決定することができることを示す。
参考スコア（独自算出の注目度）: 3.18294468240512
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Industry 4.0 is driven by demands like shorter time-to-market, mass customization of products, and batch size one production. Reinforcement Learning (RL), a machine learning paradigm shown to possess a great potential in improving and surpassing human level performance in numerous complex tasks, allows coping with the mentioned demands. In this paper, we present an OPC UA based Operational Technology (OT)-aware RL architecture, which extends the standard RL setting, combining it with the setting of digital twins. Moreover, we define an OPC UA information model allowing for a generalized plug-and-play like approach for exchanging the RL agent used. In conclusion, we demonstrate and evaluate the architecture, by creating a proof of concept. By means of solving a toy example, we show that this architecture can be used to determine the optimal policy using a real control system.
Abstract（参考訳）: industry 4.0は、市場投入時間の短縮、製品の大量カスタマイズ、バッチサイズ1の生産といった要求によって駆動される。強化学習(Reinforcement Learning, RL)は、多数の複雑なタスクにおいて、人間レベルのパフォーマンスを改善し、達成する大きな可能性を持つ機械学習パラダイムである。本稿では,OPC UAをベースとしたオペレーショナル・テクノロジー(OT)対応のRLアーキテクチャを提案する。さらに、使用するRLエージェントを交換するための汎用的なプラグイン・アンド・プレイのようなアプローチを実現するためのOPC UA情報モデルを定義する。結論として,概念実証を作成することにより,アーキテクチャを実証し,評価する。おもちゃの例を解くことによって,本アーキテクチャが実際の制御システムを用いて最適方針を決定することができることを示す。

関連論文リスト

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
A Systematic Literature Review of Parameter-Efficient Fine-Tuning for Large Code Models [2.171120568435925]
コードのための大規模言語モデル(LLM)は、訓練と微調整のためにかなりの計算資源を必要とする。この問題に対処するため,研究コミュニティは,より効率的なファインチューニング(PEFT)へと移行している。 PEFTは、モデル全体ではなく、パラメータの小さなサブセットだけを更新することで、大きなモデルの適応を可能にする。本研究は,27件の査読論文から得られた知見を合成し,構成戦略のパターンと適応トレードオフを同定する。
論文参考訳（メタデータ） (2025-04-29T16:19:25Z)
Command A: An Enterprise-Ready Large Language Model [180.18356391290172]
コマンドAはエージェント最適化および多言語対応モデルである。クラス内で最高のRetrieval Augmented Generation機能を提供する。
論文参考訳（メタデータ） (2025-04-01T12:08:07Z)
Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。 AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文参考訳（メタデータ） (2024-11-21T02:15:52Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
LExCI: A Framework for Reinforcement Learning with Embedded Systems [1.8218298349840023]
本稿では,RLライブラリと組込みシステムとのギャップを埋める LExCI というフレームワークを提案する。オープンソースライブラリのRLlibを使用して,組み込みシステム上でエージェントをトレーニングするための,無償かつオープンソースツールを提供する。操作性は、最先端の2つのRL-algorithmと、迅速な制御プロトタイピングシステムで実証されている。
論文参考訳（メタデータ） (2023-12-05T13:06:25Z)
Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。 UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文参考訳（メタデータ） (2023-10-07T06:01:35Z)
A Mini Review on the utilization of Reinforcement Learning with OPC UA [0.9208007322096533]
強化学習(Reinforcement Learning, RL)は、ロボット工学、自然言語処理、ゲームプレイといった様々な分野に応用された強力な機械学習パラダイムである。この可能性を完全に活用する鍵は、既存の産業システムへのRLのシームレスな統合である。この研究は、このギャップを埋めるために、両方の技術の技術的な概要を簡潔に提供し、半発掘的な文献レビューを実施している。
論文参考訳（メタデータ） (2023-05-24T13:03:48Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Architecting and Visualizing Deep Reinforcement Learning Models [77.34726150561087]
深層強化学習(Deep Reinforcement Learning, DRL)は、コンピュータが相互にコミュニケーションする方法を教えることを目的とした理論である。本稿では,新しいAtari Pongゲーム環境,ポリシーグラデーションに基づくDRLモデル,リアルタイムネットワーク可視化,そしてDRL推論の直観と認識を構築するためのインタラクティブディスプレイを提案する。
論文参考訳（メタデータ） (2021-12-02T17:48:26Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
Integrating Distributed Architectures in Highly Modular RL Libraries [4.297070083645049]
ほとんどの人気のある強化学習ライブラリは、高度にモジュール化されたエージェントの構成性を主張している。本稿では、RLエージェントを独立した再利用可能なコンポーネントによって異なるスケールで定義できる汎用的アプローチを提案する。
論文参考訳（メタデータ） (2020-07-06T10:22:07Z)
The Adversarial Resilience Learning Architecture for AI-based Modelling, Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。 ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文参考訳（メタデータ） (2020-05-27T19:19:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。