論文の概要: A Scalable and Reproducible System-on-Chip Simulation for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2104.13187v1
- Date: Tue, 27 Apr 2021 13:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:36:07.967674
- Title: A Scalable and Reproducible System-on-Chip Simulation for Reinforcement
Learning
- Title(参考訳): 強化学習のためのスケーラブルで再現可能なシステムオンチップシミュレーション
- Authors: Tegg Taekyong Sung, Bo Ryu
- Abstract要約: 本稿では,高忠実度Domain-Specific System-on-Chip (DSSoC) アプリケーションに適した,スケーラブルで再現可能なオープン環境である gym-ds3 を提案する。
シミュレーションは階層的ジョブをヘテロジニアスなsystem-on-chip (soc)プロセッサにスケジュールし、システムを強化学習研究に橋渡しする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) underlies in a simulated environment and
optimizes objective goals. By extending the conventional interaction scheme,
this paper proffers gym-ds3, a scalable and reproducible open environment
tailored for a high-fidelity Domain-Specific System-on-Chip (DSSoC)
application. The simulation corroborates to schedule hierarchical jobs onto
heterogeneous System-on-Chip (SoC) processors and bridges the system to
reinforcement learning research. We systematically analyze the representative
SoC simulator and discuss the primary challenging aspects that the system (1)
continuously generates indefinite jobs at a rapid injection rate, (2) optimizes
complex objectives, and (3) operates in steady-state scheduling. We provide
exemplary snippets and experimentally demonstrate the run-time performances on
different schedulers that successfully mimic results achieved from the standard
DS3 framework and real-world embedded systems.
- Abstract(参考訳): 深層強化学習(drl)はシミュレーション環境で基礎を成し、目標を最適化する。
従来のインタラクション方式を拡張して,高忠実度Domain-Specific System-on-Chip (DSSoC) アプリケーションに適した,スケーラブルで再現可能なオープン環境である gym-ds3 を提案する。
シミュレーションは階層的ジョブをヘテロジニアスなsystem-on-chip (soc)プロセッサにスケジュールし、システムを強化学習研究に橋渡しする。
代表的なsocシミュレータを体系的に解析し,(1)高速噴射速度で無期限ジョブを連続的に生成し,(2)複雑な目的を最適化し,(3)定常スケジューリングで運用する主な課題について考察する。
本稿では,標準的なDS3フレームワークと実世界の組込みシステムから得られた成果を再現した,スケジューラのランタイム性能を実験的に実証する。
関連論文リスト
- Digital Twin-Enabled Real-Time Control in Robotic Additive Manufacturing via Soft Actor-Critic Reinforcement Learning [2.5709786140685633]
本研究は,ソフトアクタ・クリティカル(SAC)強化学習とデジタルツイン技術を組み合わせた新しいアプローチを提案する。
我々は,Vier X300sロボットアームを用いて,2つの異なる制御シナリオを実装した手法を実証した。
その結果、シミュレートされた環境と物理的環境の両方において、迅速な政策収束と堅牢なタスク実行が示された。
論文 参考訳(メタデータ) (2025-01-29T22:06:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Robust-MBDL: A Robust Multi-branch Deep Learning Based Model for
Remaining Useful Life Prediction and Operational Condition Identification of
Rotating Machines [1.2593669712329136]
提案システムは,(1)振動データを復調するLSTM-Autoencoder,(2)識別されたデータから時間領域,周波数領域,時間周波数ベースの特徴を生成する特徴抽出,(3)複数の特徴を利用する新規で堅牢なマルチブランチ深層学習ネットワークアーキテクチャを含む。
提案システムの性能を,XJTU-SY と PRONOSTIA の2つのベンチマークデータセットの最先端システムと比較した。
論文 参考訳(メタデータ) (2023-09-12T11:58:53Z) - CONSTRUCT: A Program Synthesis Approach for Reconstructing Control
Algorithms from Embedded System Binaries in Cyber-Physical Systems [39.78288224911617]
本稿では,産業用サイバー物理システムに実装された制御アルゴリズムの数学的表現を自動的に合成する新しい手法を提案する。
出力モデルは、課題の専門家によって、期待される振る舞いに対するシステムのコンプライアンスを評価するために使用することができる。
論文 参考訳(メタデータ) (2023-08-01T03:10:55Z) - Optimising Highly-Parallel Simulation-Based Verification of
Cyber-Physical Systems [0.0]
サイバー物理システム(CPS)は多くの産業関連領域で発生し、しばしばミッションクリティカルまたは安全クリティカルである。
CPSのシステムレベル検証(SLV)は、与えられた(例えば、安全か生きか)仕様が満たされているか、あるいはある価値を推定することを保証することを目的としている。
論文 参考訳(メタデータ) (2023-07-28T08:08:27Z) - ETLP: Event-based Three-factor Local Plasticity for online learning with
neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。
また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文 参考訳(メタデータ) (2023-01-19T19:45:42Z) - SimVPv2: Towards Simple yet Powerful Spatiotemporal Predictive Learning [61.419914155985886]
空間的・時間的モデリングにおけるUnetアーキテクチャの必要性を解消する合理化モデルであるSimVPv2を提案する。
SimVPv2はモデルアーキテクチャを単純化するだけでなく、性能と計算効率も改善する。
標準のMoving MNISTベンチマークでは、SimVPv2は、FLOPが少なく、トレーニング時間の半分、推論効率が60%速く、SimVPよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-22T08:01:33Z) - Deep Bayesian Active Learning for Accelerating Stochastic Simulation [74.58219903138301]
Interactive Neural Process(INP)は、シミュレーションとアクティブな学習アプローチのためのディープラーニングフレームワークである。
能動的学習のために,NPベースモデルの潜時空間で計算された新しい取得関数Latent Information Gain (LIG)を提案する。
その結果,STNPは学習環境のベースラインを上回り,LIGは能動学習の最先端を達成していることがわかった。
論文 参考訳(メタデータ) (2021-06-05T01:31:51Z) - Computational framework for real-time diagnostics and prognostics of
aircraft actuation systems [0.0]
本研究は, 信号取得, 故障検出と同定, 有用寿命推定の3段階に対処する。
この目的を達成するために、異なる忠実度を持つ物理モデルからの情報と機械学習技術を組み合わせることを提案する。
この手法は、二次飛行制御のための航空機の電気機械アクチュエータのFDIおよびRUL推定のために評価される。
論文 参考訳(メタデータ) (2020-09-30T12:53:07Z) - Combining Machine Learning with Knowledge-Based Modeling for Scalable
Forecasting and Subgrid-Scale Closure of Large, Complex, Spatiotemporal
Systems [48.7576911714538]
我々は、過去のデータを予測に組み込む上で、機械学習を必須のツールとして活用しようと試みる。
i)並列機械学習予測手法と(ii)ハイブリッド手法の2つの手法を組み合わせて,知識ベースコンポーネントと機械学習ベースコンポーネントからなる複合予測システムを提案する。
i) と (ii) を組み合わせることで、非常に大規模なシステムに優れた性能を与えることができるだけでなく、並列機械学習コンポーネントを訓練するのに必要となる時系列データの長さが、並列化なしで必要なものよりも劇的に少ないことを実証した。
論文 参考訳(メタデータ) (2020-02-10T23:21:50Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。