論文の概要: PyTupli: A Scalable Infrastructure for Collaborative Offline Reinforcement Learning Projects
- arxiv url: http://arxiv.org/abs/2505.16754v1
- Date: Thu, 22 May 2025 14:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.377202
- Title: PyTupli: A Scalable Infrastructure for Collaborative Offline Reinforcement Learning Projects
- Title(参考訳): PyTupli: オフライン強化学習プロジェクトのためのスケーラブルなインフラストラクチャ
- Authors: Hannah Markgraf, Michael Eichelbeck, Daria Cappey, Selin Demirtürk, Yara Schattschneider, Matthias Althoff,
- Abstract要約: オフライン強化学習(RL)は,事前収集データから制御ポリシを学習するための強力なパラダイムとして注目を集めている。
PyTupliはPythonベースのツールで、ベンチマーク環境の作成、ストレージ、普及を効率化する。
- 参考スコア(独自算出の注目度): 5.744272697629195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline reinforcement learning (RL) has gained traction as a powerful paradigm for learning control policies from pre-collected data, eliminating the need for costly or risky online interactions. While many open-source libraries offer robust implementations of offline RL algorithms, they all rely on datasets composed of experience tuples consisting of state, action, next state, and reward. Managing, curating, and distributing such datasets requires suitable infrastructure. Although static datasets exist for established benchmark problems, no standardized or scalable solution supports developing and sharing datasets for novel or user-defined benchmarks. To address this gap, we introduce PyTupli, a Python-based tool to streamline the creation, storage, and dissemination of benchmark environments and their corresponding tuple datasets. PyTupli includes a lightweight client library with defined interfaces for uploading and retrieving benchmarks and data. It supports fine-grained filtering at both the episode and tuple level, allowing researchers to curate high-quality, task-specific datasets. A containerized server component enables production-ready deployment with authentication, access control, and automated certificate provisioning for secure use. By addressing key barriers in dataset infrastructure, PyTupli facilitates more collaborative, reproducible, and scalable offline RL research.
- Abstract(参考訳): オフライン強化学習(RL)は、事前コンパイルされたデータから制御ポリシーを学ぶための強力なパラダイムとして、コストやリスクの高いオンラインインタラクションの必要性を排除し、注目を集めている。
多くのオープンソースライブラリは、オフラインのRLアルゴリズムの堅牢な実装を提供しているが、それらはすべて、状態、アクション、次の状態、報酬からなる経験的なタプルで構成されるデータセットに依存している。
このようなデータセットの管理、キュレーション、配布には適切なインフラストラクチャが必要です。
確立されたベンチマーク問題には静的なデータセットが存在するが、新しいベンチマークやユーザ定義のベンチマークのためのデータセットの開発と共有をサポートする標準化された、あるいはスケーラブルなソリューションはない。
このギャップに対処するため、PythonベースのツールであるPyTupliを紹介します。
PyTupliには、ベンチマークとデータのアップロードと検索のためのインターフェースが定義された軽量クライアントライブラリが含まれている。
エピソードとタプルレベルできめ細かいフィルタリングをサポートしており、研究者は高品質のタスク固有のデータセットをキュレートすることができる。
コンテナ化されたサーバコンポーネントは、認証、アクセス制御、セキュアな使用のための自動証明書プロビジョニングを備えたプロダクション対応デプロイメントを可能にする。
データセットインフラストラクチャにおける重要な障壁に対処することによって、PyTupliはより協力的、再現可能、スケーラブルなオフラインRLリサーチを促進する。
関連論文リスト
- Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。
パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文 参考訳(メタデータ) (2024-11-18T06:33:40Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - TorchRL: A data-driven decision-making library for PyTorch [20.776851077664915]
PyTorchは、プレミア機械学習フレームワークとして昇格したが、決定および制御タスクのためのネイティブで包括的なライブラリが欠如している。
我々はPyTorchの汎用制御ライブラリであるTorchRLを提案する。
ビルディングブロックの詳細な説明と、ドメインやタスクにわたるライブラリの概要について説明する。
論文 参考訳(メタデータ) (2023-06-01T11:45:45Z) - Outsourcing Training without Uploading Data via Efficient Collaborative
Open-Source Sampling [49.87637449243698]
従来のアウトソーシングでは、デバイスデータをクラウドサーバにアップロードする必要がある。
我々は、公開および異種ソースから収集された膨大なデータセットである、広く利用可能なオープンソースデータを活用することを提案する。
我々は,オープンソースデータからクラウドトレーニングのためのプロキシデータセットを構築するための,ECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。
論文 参考訳(メタデータ) (2022-10-23T00:12:18Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - PyRelationAL: a python library for active learning research and development [1.0061110876649197]
アクティブラーニング(英: Active Learning, AL)は、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。
本稿では,AL研究のためのオープンソースライブラリであるPyRelationALを紹介する。
プールベースのアクティブラーニング戦略を構成するための2段階の設計方法論をベースとしたモジュラーツールキットについて述べる。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。