Fugu-MT 論文翻訳(概要): Concept and the implementation of a tool to convert industry 4.0 environments modeled as FSM to an OpenAI Gym wrapper

論文の概要: Concept and the implementation of a tool to convert industry 4.0 environments modeled as FSM to an OpenAI Gym wrapper

arxiv url: http://arxiv.org/abs/2006.16035v1
Date: Mon, 29 Jun 2020 13:28:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 13:17:27.554986
Title: Concept and the implementation of a tool to convert industry 4.0 environments modeled as FSM to an OpenAI Gym wrapper
Title（参考訳）: FSMとしてモデル化された産業用4.0環境をOpenAI Gymラッパーに変換するツールの概念と実装
Authors: Kallil M. C. Zielinski and Marcelo Teixeira and Richardson Ribeiro and Dalcimar Casanova
Abstract要約: 本稿では、FSMとしてモデル化された動的システムをオープンソースGymラッパーに変換するツールの概念と実装について述べる。提案ツールの最初のテストでは、従来のQ-ラーニング手法と2つの単純な環境上での深層Q-ラーニング手法を示す。
参考スコア（独自算出の注目度）: 2.594420805049218
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Industry 4.0 systems have a high demand for optimization in their tasks, whether to minimize cost, maximize production, or even synchronize their actuators to finish or speed up the manufacture of a product. Those challenges make industrial environments a suitable scenario to apply all modern reinforcement learning (RL) concepts. The main difficulty, however, is the lack of that industrial environments. In this way, this work presents the concept and the implementation of a tool that allows us to convert any dynamic system modeled as an FSM to the open-source Gym wrapper. After that, it is possible to employ any RL methods to optimize any desired task. In the first tests of the proposed tool, we show traditional Q-learning and Deep Q-learning methods running over two simple environments.
Abstract（参考訳）: 産業用4.0システムは、コストの最小化、生産の最大化、あるいはアクチュエータを同期させて製品の製造を完了または高速化するなど、タスクの最適化に高い需要がある。これらの課題により、産業環境は現代の強化学習(rl)の概念を適用するのに適したシナリオとなる。しかし、主な困難は、その産業環境の欠如である。このようにして、本研究では、fsmとしてモデル化された動的システムをオープンソースのジムラッパーに変換できるツールの概念と実装を紹介する。その後、任意のRLメソッドを使用して任意のタスクを最適化することが可能になる。提案ツールの最初のテストでは,2つの単純な環境で動作する従来のQラーニング手法と深層Qラーニング手法を示す。

関連論文リスト

ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors [104.5401871607713]
本稿では、より小型でコスト効率の良い言語モデルをカスタマイズし、より強力なモデルを利用するための設計と最適化を行う新しいフレームワークであるWeakfor-Strong Harnessing (W4S)を提案する。 W4Sはマルチターンマルコフ決定プロセスとして設計を定式化し、エージェントワークフロー最適化のための強化学習を導入する。経験的な結果から、GPU時間でトレーニングされた7Bメタエージェントは、11ベンチマークで2.9%、最強のベースラインを2.9%上回るW4Sの優位性を示している。
論文参考訳（メタデータ） (2025-04-07T07:27:31Z)
SortingEnv: An Extendable RL-Environment for an Industrial Sorting Process [0.0]
本稿では,産業的な選別システムを最適化し,進化空間におけるエージェントの挙動を研究することを目的とした,新しい強化学習(RL)環境を提案する。選別プロセス内で物質の流れをシミュレートする際、我々の環境は、ベルト速度や占有レベルといった操作パラメータを持つデジタルツインのアイデアに従います。これには、離散ベルトの速度調整に焦点を当てた基本バージョンと、複数のソートモードを導入した先進バージョンと、強化された材料組成観察という2つのバリエーションが含まれる。
論文参考訳（メタデータ） (2025-03-13T15:38:25Z)
Yi-Lightning Technical Report [65.64771297971843]
Yi-Lightningは私たちの最新のフラッグシップ大型言語モデル(LLM)です。成績は最高で、アリーナでは6位にランクインした。従来の静的なベンチマーク結果と実世界の動的人間の嗜好との顕著な相違を観察する。
論文参考訳（メタデータ） (2024-12-02T08:22:56Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.673219028826173]
本稿では,OR-Instruct という,最適化モデル問題のための半自動データ合成フレームワークを提案する。我々は、70億のパラメータ(ORLM)を持つ様々なオープンソースのLDMを訓練する。結果として得られたモデルは、NL4OPT、MAMO、IndustrialORベンチマークにまたがって最先端のパフォーマンスを達成し、大幅な最適化モデリング能力を示す。
論文参考訳（メタデータ） (2024-05-28T01:55:35Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
An Architecture for Deploying Reinforcement Learning in Industrial Environments [3.18294468240512]
OPC UAをベースとしたオペレーショナル・テクノロジー(OT)対応のRLアーキテクチャを提案する。我々は,汎用的なプラグアンドプレイ型アプローチでRLエージェントを交換するOPC UA情報モデルを定義する。おもちゃの例を解くことで、このアーキテクチャが最適なポリシーを決定することができることを示す。
論文参考訳（メタデータ） (2023-06-02T10:22:01Z)
A Mini Review on the utilization of Reinforcement Learning with OPC UA [0.9208007322096533]
強化学習(Reinforcement Learning, RL)は、ロボット工学、自然言語処理、ゲームプレイといった様々な分野に応用された強力な機械学習パラダイムである。この可能性を完全に活用する鍵は、既存の産業システムへのRLのシームレスな統合である。この研究は、このギャップを埋めるために、両方の技術の技術的な概要を簡潔に提供し、半発掘的な文献レビューを実施している。
論文参考訳（メタデータ） (2023-05-24T13:03:48Z)
A framework for fully autonomous design of materials via multiobjective optimization and active learning: challenges and next steps [2.6047112351202784]
継続的に更新された機械学習モデルを用いた多目的ブラックボックス最適化に基づくアクティブな学習プロセスを提案する。このワークフローは、リアルタイムデータストリーミングとモジュール化された多目的最適化ソフトウェア開発のためのオープンソース技術に基づいて構築されている。本研究では, 連続流化学実験室の自律運転を通して, このワークフローの概念実証を行う。
論文参考訳（メタデータ） (2023-04-15T01:34:16Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文参考訳（メタデータ） (2021-10-11T10:13:49Z)
PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文参考訳（メタデータ） (2021-04-07T17:59:23Z)
RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文参考訳（メタデータ） (2020-06-16T08:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。