論文の概要: Rulebook: bringing co-routines to reinforcement learning environments
- arxiv url: http://arxiv.org/abs/2504.19625v1
- Date: Mon, 28 Apr 2025 09:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.382637
- Title: Rulebook: bringing co-routines to reinforcement learning environments
- Title(参考訳): ルールブック:強化学習環境にコルーチンをもたらす
- Authors: Massimo Fioravanti, Samuele Pasini, Giovanni Agosta,
- Abstract要約: Rulebookは、機械学習アルゴリズムと対話するために必要なステートマシンを自動的に生成するように設計されたコンパイル言語である。
ユーザはMLコンポーネントが必要とする特定のインターフェースを意識することなく、プログラムを表現できる。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) algorithms, due to their reliance on external systems to learn from, require digital environments (e.g., simulators) with very simple interfaces, which in turn constrain significantly the implementation of such environments. In particular, these environments are implemented either as separate processes or as state machines, leading to synchronization and communication overheads in the first case, and to unstructured programming in the second. We propose a new domain-specific, co-routine-based, compiled language, called Rulebook, designed to automatically generate the state machine required to interact with machine learning (ML) algorithms and similar applications, with no performance overhead. Rulebook allows users to express programs without needing to be aware of the specific interface required by the ML components. By decoupling the execution model of the program from the syntactical encoding of the program, and thus without the need for manual state management, Rulebook allows to create larger and more sophisticated environments at a lower development cost.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは、外部システムに依存して学習するため、非常に単純なインタフェースを持つデジタル環境(シミュレータなど)を必要とする。
特に、これらの環境は別々のプロセスまたはステートマシンとして実装され、第一のケースでは同期と通信のオーバーヘッド、第二のケースでは非構造化プログラミングに繋がる。
本稿では,機械学習(ML)アルゴリズムなどのアプリケーションと対話するために必要なステートマシンを自動的に生成し,性能上のオーバーヘッドを伴わない,ドメイン固有でコルーチンベースのコンパイル言語であるルールブックを提案する。
Rulebookでは、MLコンポーネントが必要とする特定のインターフェースを意識することなく、プログラムを表現できる。
プログラムの実行モデルをプログラムの構文的エンコーディングから切り離すことで、手動の状態管理を必要とせずに、より大規模でより洗練された環境を開発コストで作成することができる。
関連論文リスト
- Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs [63.10710876536337]
検証済みスクリプトの集合であるソフトウェア固有のスキルセットをキュレートするためのオフラインシミュレーションフレームワークを提案する。
本フレームワークは,1)タスク作成,トップダウン機能の利用,およびボトムアップAPIのシナジー探索という2つのコンポーネントから構成される。
Adobe Illustratorでの実験では、我々のフレームワークは自動化の成功率を大幅に改善し、レスポンス時間を短縮し、ランタイムトークンのコストを削減しています。
論文 参考訳(メタデータ) (2025-04-29T04:03:37Z) - Model-Driven Rapid Prototyping for Control Algorithms with the GIPS Framework (System Description) [0.0]
我々は、ソフトウェアシステムの迅速なプロトタイピングをサポートするために、GIPS(Graph-based ILP Problem Specification)フレームワークを作成しました。
高レベルの仕様言語であるGIPSL(Graph-based ILP Problem Specification Language)を使用して、制約と目的のセットとして、望ましいモデル最適化を指定できます。
GIPSは、実行時に与えられた入力グラフインスタンスを最適化する実行可能な(Java)ソフトウェアアーティファクトを自動的に引き出すことができる。
論文 参考訳(メタデータ) (2025-03-26T11:52:52Z) - Promptware Engineering: Software Engineering for LLM Prompt Development [22.788377588087894]
大規模言語モデル(LLM)は、ソフトウェアアプリケーションに統合され、プロンプトが主要な'プログラミング'インターフェースとして機能する。
その結果,新たなソフトウェアパラダイムであるプロンプトウェアが出現し,自然言語のプロンプトを使ってLLMと対話する。
フォーマルなプログラミング言語や決定論的ランタイム環境に依存する従来のソフトウェアとは異なり、プロンプトウェアはあいまいで非構造的で文脈に依存した自然言語に基づいている。
論文 参考訳(メタデータ) (2025-03-04T08:43:16Z) - Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z) - Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning Code LLMs [42.31298987176411]
プログラム実行中にタスク固有のシミュレーション環境をオンザフライで合成するROBO-INSTRUCTを提案する。
ROBO-INSTRUCT は LLM に支援された後処理の手順を統合し,ロボットプログラムとの整合性を向上する。
論文 参考訳(メタデータ) (2024-05-30T15:47:54Z) - RedCoast: A Lightweight Tool to Automate Distributed Training of LLMs on Any GPU/TPUs [32.01139974519813]
大規模言語モデル(LLM)の分散トレーニングと推論を自動化するツールであるRedCoastを紹介する。
また,3つの関数の定義により,多様なMLパイプラインをカスタマイズする機構を提案する。
その結果、Redcoの実装は公式実装に比べてコード行数が大幅に減った。
論文 参考訳(メタデータ) (2023-10-25T04:32:35Z) - mlirSynth: Automatic, Retargetable Program Raising in Multi-Level IR
using Program Synthesis [48.01697184432969]
mlirSynthは、プログラムを低レベルMLIR方言から高レベルなものに翻訳する。
Cプログラムを2つの異なるハイレベルなMLIR方言にリバイバイバルすることで、既存のハイレベルな方言固有のコンパイルフローを利用できることを示す。
論文 参考訳(メタデータ) (2023-10-06T12:21:50Z) - QParallel: Explicit Parallelism for Programming Quantum Computers [62.10004571940546]
並列量子プログラミングのための言語拡張を提案する。
QParallelは、現在の量子プログラミング言語における並列性に関する曖昧さを取り除く。
並列化によって最も利益を上げるサブルーチンを識別し,並列領域の配置にプログラマを誘導するツールを提案する。
論文 参考訳(メタデータ) (2022-10-07T16:35:16Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z) - Composition Machines: Programming Self-Organising Software Models for
the Emergence of Sequential Program Spaces [0.0]
本稿では,そのようなモデルの定義と実行を可能にする,合成機械と呼ばれる抽象機械を提案する。
一般的な抽象機械とは異なり、提案手法は個々のプログラムを計算せず、一度に複数のプログラムが出現することを可能にする。
論文 参考訳(メタデータ) (2021-08-11T18:39:47Z) - How could Neural Networks understand Programs? [67.4217527949013]
ソースコードにnlpプリトレーニング技術を直接適用するか、あるいはtheshelfによってモデルに機能を追加するかで、プログラムをより理解するためのモデルを構築するのは難しい。
本研究では,(1)操作セマンティクスの基本操作とよく一致する表現と(2)環境遷移の情報からなる情報から,モデルが学ぶべき新しいプログラムセマンティクス学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T12:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。