Fugu-MT 論文翻訳(概要): A Scalable and Reproducible System-on-Chip Simulation for Reinforcement Learning

論文の概要: A Scalable and Reproducible System-on-Chip Simulation for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2104.13187v1
Date: Tue, 27 Apr 2021 13:46:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-28 13:36:07.967674
Title: A Scalable and Reproducible System-on-Chip Simulation for Reinforcement Learning
Title（参考訳）: 強化学習のためのスケーラブルで再現可能なシステムオンチップシミュレーション
Authors: Tegg Taekyong Sung, Bo Ryu
Abstract要約: 本稿では,高忠実度Domain-Specific System-on-Chip (DSSoC) アプリケーションに適した,スケーラブルで再現可能なオープン環境である gym-ds3 を提案する。シミュレーションは階層的ジョブをヘテロジニアスなsystem-on-chip (soc)プロセッサにスケジュールし、システムを強化学習研究に橋渡しする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Reinforcement Learning (DRL) underlies in a simulated environment and optimizes objective goals. By extending the conventional interaction scheme, this paper proffers gym-ds3, a scalable and reproducible open environment tailored for a high-fidelity Domain-Specific System-on-Chip (DSSoC) application. The simulation corroborates to schedule hierarchical jobs onto heterogeneous System-on-Chip (SoC) processors and bridges the system to reinforcement learning research. We systematically analyze the representative SoC simulator and discuss the primary challenging aspects that the system (1) continuously generates indefinite jobs at a rapid injection rate, (2) optimizes complex objectives, and (3) operates in steady-state scheduling. We provide exemplary snippets and experimentally demonstrate the run-time performances on different schedulers that successfully mimic results achieved from the standard DS3 framework and real-world embedded systems.
Abstract（参考訳）: 深層強化学習(drl)はシミュレーション環境で基礎を成し、目標を最適化する。従来のインタラクション方式を拡張して,高忠実度Domain-Specific System-on-Chip (DSSoC) アプリケーションに適した,スケーラブルで再現可能なオープン環境である gym-ds3 を提案する。シミュレーションは階層的ジョブをヘテロジニアスなsystem-on-chip (soc)プロセッサにスケジュールし、システムを強化学習研究に橋渡しする。代表的なsocシミュレータを体系的に解析し,(1)高速噴射速度で無期限ジョブを連続的に生成し,(2)複雑な目的を最適化し,(3)定常スケジューリングで運用する主な課題について考察する。本稿では,標準的なDS3フレームワークと実世界の組込みシステムから得られた成果を再現した,スケジューラのランタイム性能を実験的に実証する。

関連論文リスト

EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文参考訳（メタデータ） (2026-01-29T11:33:49Z)
Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
Helmsman: Autonomous Synthesis of Federated Learning Systems via Multi-Agent Collaboration [26.299123587171554]
Helmsmanは、フェデレート学習システムのエンドツーエンド合成を自動化する新しいマルチエージェントシステムである。 AgentFL-Benchは、FLにおけるエージェントシステムのシステムレベルの生成能力を評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2025-10-16T09:57:31Z)
MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning [82.14973479594367]
複雑な推論タスクのための大規模言語モデル(LLM)は、直感的で意図的な認知プロセスを橋渡しする革新的なアプローチを必要とする。本稿では,Multi-Agent System for Deep ReSearch (MARS)を提案する。
論文参考訳（メタデータ） (2025-10-06T15:42:55Z)
HPC Digital Twins for Evaluating Scheduling Policies, Incentive Structures and their Impact on Power and Cooling [0.9681568030660136]
本稿では,HPCにおけるスケジューリングとディジタル双対の統合について紹介する。これにより、パラメータの設定やスケジュール決定が物理的資産に与える影響を理解することができる。
論文参考訳（メタデータ） (2025-08-27T16:21:31Z)
Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization [0.0]
本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
論文参考訳（メタデータ） (2025-07-24T20:32:47Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文参考訳（メタデータ） (2025-06-07T06:15:49Z)
DOPPLER: Dual-Policy Learning for Device Assignment in Asynchronous Dataflow Graphs [11.966335602618933]
本研究では,作業保守システムにおける実行時間を最小化するために,データフローグラフの操作をデバイスに割り当てる問題について検討する。実験の結果,textscDopplerはタスク全体にわたって,すべてのベースラインメソッドより優れていることがわかった。
論文参考訳（メタデータ） (2025-05-29T06:04:32Z)
Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文参考訳（メタデータ） (2025-05-23T03:28:25Z)
LAPSO: A Unified Optimization View for Learning-Augmented Power System Operations [3.754570687412345]
本稿では,LAPSO(Learning-Augmented Power System Operations)の総合的枠組みを提案する。 LAPSOは運用段階を中心におり、時間的にサイロ化された電力系統のタスクの境界線を断ち切ることを目的としている。学習可能なコンポーネントで既存のパワーシステム最適化モデルを自動的に拡張するために、専用のPythonパッケージ-lapsoが導入された。
論文参考訳（メタデータ） (2025-05-08T13:00:24Z)
UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文参考訳（メタデータ） (2025-03-26T17:33:23Z)
DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-07T11:41:18Z)
Digital Twin-Enabled Real-Time Control in Robotic Additive Manufacturing via Soft Actor-Critic Reinforcement Learning [2.5709786140685633]
本研究は,ソフトアクタ・クリティカル(SAC)強化学習とデジタルツイン技術を組み合わせた新しいアプローチを提案する。我々は,Vier X300sロボットアームを用いて,2つの異なる制御シナリオを実装した手法を実証した。その結果、シミュレートされた環境と物理的環境の両方において、迅速な政策収束と堅牢なタスク実行が示された。
論文参考訳（メタデータ） (2025-01-29T22:06:53Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Robust-MBDL: A Robust Multi-branch Deep Learning Based Model for Remaining Useful Life Prediction and Operational Condition Identification of Rotating Machines [1.2593669712329136]
提案システムは,(1)振動データを復調するLSTM-Autoencoder,(2)識別されたデータから時間領域,周波数領域,時間周波数ベースの特徴を生成する特徴抽出,(3)複数の特徴を利用する新規で堅牢なマルチブランチ深層学習ネットワークアーキテクチャを含む。提案システムの性能を,XJTU-SY と PRONOSTIA の2つのベンチマークデータセットの最先端システムと比較した。
論文参考訳（メタデータ） (2023-09-12T11:58:53Z)
CONSTRUCT: A Program Synthesis Approach for Reconstructing Control Algorithms from Embedded System Binaries in Cyber-Physical Systems [39.78288224911617]
本稿では,産業用サイバー物理システムに実装された制御アルゴリズムの数学的表現を自動的に合成する新しい手法を提案する。出力モデルは、課題の専門家によって、期待される振る舞いに対するシステムのコンプライアンスを評価するために使用することができる。
論文参考訳（メタデータ） (2023-08-01T03:10:55Z)
Optimising Highly-Parallel Simulation-Based Verification of Cyber-Physical Systems [0.0]
サイバー物理システム(CPS)は多くの産業関連領域で発生し、しばしばミッションクリティカルまたは安全クリティカルである。 CPSのシステムレベル検証(SLV)は、与えられた(例えば、安全か生きか)仕様が満たされているか、あるいはある価値を推定することを保証することを目的としている。
論文参考訳（メタデータ） (2023-07-28T08:08:27Z)
ETLP: Event-based Three-factor Local Plasticity for online learning with neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文参考訳（メタデータ） (2023-01-19T19:45:42Z)
SimVPv2: Towards Simple yet Powerful Spatiotemporal Predictive Learning [61.419914155985886]
空間的・時間的モデリングにおけるUnetアーキテクチャの必要性を解消する合理化モデルであるSimVPv2を提案する。 SimVPv2はモデルアーキテクチャを単純化するだけでなく、性能と計算効率も改善する。標準のMoving MNISTベンチマークでは、SimVPv2は、FLOPが少なく、トレーニング時間の半分、推論効率が60%速く、SimVPよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-11-22T08:01:33Z)
Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文参考訳（メタデータ） (2022-02-07T05:11:01Z)
Deep Bayesian Active Learning for Accelerating Stochastic Simulation [74.58219903138301]
Interactive Neural Process(INP)は、シミュレーションとアクティブな学習アプローチのためのディープラーニングフレームワークである。能動的学習のために,NPベースモデルの潜時空間で計算された新しい取得関数Latent Information Gain (LIG)を提案する。その結果,STNPは学習環境のベースラインを上回り,LIGは能動学習の最先端を達成していることがわかった。
論文参考訳（メタデータ） (2021-06-05T01:31:51Z)
Computational framework for real-time diagnostics and prognostics of aircraft actuation systems [0.0]
本研究は, 信号取得, 故障検出と同定, 有用寿命推定の3段階に対処する。この目的を達成するために、異なる忠実度を持つ物理モデルからの情報と機械学習技術を組み合わせることを提案する。この手法は、二次飛行制御のための航空機の電気機械アクチュエータのFDIおよびRUL推定のために評価される。
論文参考訳（メタデータ） (2020-09-30T12:53:07Z)
DISPATCH: Design Space Exploration of Cyber-Physical Systems [5.273291582861981]
サイバー物理システム(CPS)の設計は、様々なCPS構成の大規模な検索空間を探索する難題である。設計空間上のサンプル効率探索のための2段階の手法であるDisdisを提案する。
論文参考訳（メタデータ） (2020-09-21T23:14:51Z)
Combining Machine Learning with Knowledge-Based Modeling for Scalable Forecasting and Subgrid-Scale Closure of Large, Complex, Spatiotemporal Systems [48.7576911714538]
我々は、過去のデータを予測に組み込む上で、機械学習を必須のツールとして活用しようと試みる。 i)並列機械学習予測手法と(ii)ハイブリッド手法の2つの手法を組み合わせて,知識ベースコンポーネントと機械学習ベースコンポーネントからなる複合予測システムを提案する。 i) と (ii) を組み合わせることで、非常に大規模なシステムに優れた性能を与えることができるだけでなく、並列機械学習コンポーネントを訓練するのに必要となる時系列データの長さが、並列化なしで必要なものよりも劇的に少ないことを実証した。
論文参考訳（メタデータ） (2020-02-10T23:21:50Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。