Fugu-MT 論文翻訳(概要): pyRDDLGym: From RDDL to Gym Environments

論文の概要: pyRDDLGym: From RDDL to Gym Environments

arxiv url: http://arxiv.org/abs/2211.05939v5
Date: Tue, 6 Feb 2024 00:25:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 21:29:26.580876
Title: pyRDDLGym: From RDDL to Gym Environments
Title（参考訳）: pyRDDLGym:RDDLからGym環境へ
Authors: Ayal Taitler, Michael Gimelfarb, Jihwan Jeong, Sriram Gopalakrishnan, Martin Mladenov, Xiaotian Liu, Scott Sanner
Abstract要約: pyRDDLGymは、RDDLの宣言的記述からOpenAI Gym環境の自動生成のためのPythonフレームワークである。本稿では、pyRDDLGymの設計と組込み例と、フレームワークに組み込まれたRDDL言語への追加について述べる。
参考スコア（独自算出の注目度）: 22.439740618373346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present pyRDDLGym, a Python framework for auto-generation of OpenAI Gym environments from RDDL declerative description. The discrete time step evolution of variables in RDDL is described by conditional probability functions, which fits naturally into the Gym step scheme. Furthermore, since RDDL is a lifted description, the modification and scaling up of environments to support multiple entities and different configurations becomes trivial rather than a tedious process prone to errors. We hope that pyRDDLGym will serve as a new wind in the reinforcement learning community by enabling easy and rapid development of benchmarks due to the unique expressive power of RDDL. By providing explicit access to the model in the RDDL description, pyRDDLGym can also facilitate research on hybrid approaches for learning from interaction while leveraging model knowledge. We present the design and built-in examples of pyRDDLGym, and the additions made to the RDDL language that were incorporated into the framework.
Abstract（参考訳）: 提案するpyRDDLGymは, RDDL宣言記述からOpenAI Gym環境の自動生成のためのPythonフレームワークである。 rddlにおける変数の離散時間ステップ進化は、ジムステップスキームに自然に適合する条件付き確率関数によって記述される。さらに、RDDLは持ち上げられた記述であるため、複数のエンティティと異なる構成をサポートする環境の修正とスケールアップは、面倒なプロセスではなく、簡単になる。我々は,pyRDDLGymがRDDLの独特な表現力により,ベンチマークの容易かつ迅速な開発を可能にすることで,強化学習コミュニティの新たな風として機能することを期待する。 rddl記述におけるモデルへの明示的なアクセスを提供することで、pyrddlgymはモデルの知識を活用しながら相互作用から学ぶためのハイブリッドアプローチの研究を促進できる。本稿では、pyRDDLGymの設計と組込み例と、フレームワークに組み込まれたRDDL言語への追加について述べる。

関連論文リスト

Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference [45.760483245296456]
DRIFTは、推論プロセスから知識抽出を明示的に分離するために設計された、新しいデュアルモデルアーキテクチャである。静的プロンプト圧縮とは異なり、DRIFTは軽量な知識モデルを用いて文書チャンクを動的に圧縮し、クエリで条件付けられた暗黙の事実トークンに変換する。我々のアプローチは、大規模言語モデルの効果的なコンテキストウィンドウと推論能力を拡張するためのスケーラブルで効率的なパラダイムを提供します。
論文参考訳（メタデータ） (2026-02-10T17:42:31Z)
BalDRO: A Distributionally Robust Optimization based Framework for Large Language Model Unlearning [24.085628334112652]
BalDROは、バランスのとれたLLMアンラーニングのための、新しくて効率的なフレームワークである。我々は、BalDRO-GとBalDRO-DVの2つの効率的な変種を通してBalDROをインスタンス化する。 TOFUとMUSEの実験では、BalDROは品質の忘れ方とモデルユーティリティの両方を大幅に改善している。
論文参考訳（メタデータ） (2026-01-14T05:15:10Z)
MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。 Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。 MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文参考訳（メタデータ） (2025-10-31T15:51:39Z)
EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文参考訳（メタデータ） (2025-09-29T17:59:07Z)
DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文参考訳（メタデータ） (2025-07-29T17:55:23Z)
HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym [7.365229047837842]
強化学習(RL)メソッドはOpenAI Gymのようなツールを使って広くテストされている。 RLとの階層的計画のシームレスな統合を可能にするツールがない。我々は、HDDLドメインと問題からOpenAI Gym環境を自動的に生成するPythonベースのツールであるHDDLGymを紹介する。
論文参考訳（メタデータ） (2025-05-28T17:10:43Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。 LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2024-10-20T13:00:24Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Leveraging Environment Interaction for Automated PDDL Translation and Planning with Large Language Models [7.3238629831871735]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を示している。潜在的な解決策として、計画ドメイン定義言語(PDDL)へのプランニングの問題が提案されている。 LLMと環境フィードバックを利用してPDDLドメインと問題記述ファイルを自動生成する手法を提案する。
論文参考訳（メタデータ） (2024-07-17T19:50:51Z)
LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living [15.062325300795257]
現在のLarge Language Models(LLVM)は、一般的な理解ではよく機能するが、詳細な時間的詳細には耐えられない。この制限は、特別なADLビデオの授業調整と、モダリティ統合の欠如に起因している。本稿では,多視点マルチモーダル RGBS 命令チューニングデータセットである ADL-X を作成した ADL データセットの半きめ細かいフレームワークを提案する。 ADLの複雑な関係をモデル化するために,ビデオ,3Dスケルトン,HOIをLLVMに統合するLLAVIDALも導入した。
論文参考訳（メタデータ） (2024-06-13T17:59:05Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。 UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文参考訳（メタデータ） (2023-10-07T06:01:35Z)
Enabling Resource-efficient AIoT System with Cross-level Optimization: A survey [20.360136850102833]
この調査は、より自由なリソースパフォーマンストレードオフのために、より広い最適化スペースを提供することを目的としています。様々なレベルに散らばる問題やテクニックを統合することで、読者のつながりを理解し、さらなる議論を促すことを目指している。
論文参考訳（メタデータ） (2023-09-27T08:04:24Z)
DIETERpy: a Python framework for The Dispatch and Investment Evaluation Tool with Endogenous Renewables [62.997667081978825]
DIETERはオープンソースの電力セクターモデルであり、可変再生可能エネルギー源の非常に高いシェアで将来の設定を分析するように設計されている。システム全体のコストを最小化し、様々な世代の固定および可変コスト、柔軟性、セクター結合オプションを含む。我々は、GAMS(General Algebraic Modeling System)で記述された既存のモデルバージョンの上に構築されたDIETERpyを紹介し、それをPythonフレームワークで強化する。
論文参考訳（メタデータ） (2020-10-02T09:27:33Z)
Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文参考訳（メタデータ） (2020-07-17T21:50:35Z)
PDDLGym: Gym Environments from PDDL Problems [13.630185187102413]
PDDLGymはPDDLドメインと問題からOpenAI Gym環境を自動的に構築するフレームワークである。 PDDLGymの観察と行動はリレーショナルであり、リレーショナル強化学習とリレーショナルシーケンシャル意思決定の研究に特に適している。
論文参考訳（メタデータ） (2020-02-15T19:10:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。