Fugu-MT 論文翻訳(概要): SpecRLBench: A Benchmark for Generalization in Specification-Guided Reinforcement Learning

論文の概要: SpecRLBench: A Benchmark for Generalization in Specification-Guided Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.24729v1
Date: Mon, 27 Apr 2026 17:40:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:08.275254
Title: SpecRLBench: A Benchmark for Generalization in Specification-Guided Reinforcement Learning
Title（参考訳）: SpecRLBench: 仕様ガイド強化学習における一般化のためのベンチマーク
Authors: Zijian Guo, İlker Işık, H. M. Sabbir Ahmad, Wenchao Li,
Abstract要約: 仕様誘導強化学習(RL)は、複雑な時間的に拡張されたタスクを符号化するための原則的なフレームワークを提供する。本稿では,一般化に基づくRL法の性能評価のためのベンチマークであるSpecRLBenchを紹介する。
参考スコア（独自算出の注目度）: 4.819678320271634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Specification-guided reinforcement learning (RL) provides a principled framework for encoding complex, temporally extended tasks using formal specifications such as linear temporal logic (LTL). While recent methods have shown promising results, their ability to generalize across unseen specifications and diverse environments remains insufficiently understood. In this work, we introduce SpecRLBench, a benchmark designed to evaluate the generalization capabilities of LTL-based specification-guided RL methods. The benchmark spans multiple difficulty levels across navigation and manipulation domains, incorporating both static and dynamic environments, diverse robot dynamics, and varied observation modalities. Through extensive empirical evaluation, we characterize the strengths and limitations of existing approaches and reveal the challenges that emerge as specification and environment complexity increase. SpecRLBench provides a structured platform for systematic comparison and supports the development of more generalizable specification-guided RL methods. Code is available at https://github.com/BU-DEPEND-Lab/SpecRLBench.
Abstract（参考訳）: 仕様誘導強化学習(RL)は、線形時間論理(LTL)などの形式仕様を用いて、複雑な時間拡張タスクを符号化するための原則的フレームワークを提供する。近年の手法は有望な結果を示しているが、未確認仕様や多様な環境にまたがる一般化能力はいまだに十分に理解されていない。本稿では,LTLに基づく仕様誘導RL法の一般化能力を評価するためのベンチマークであるSpecRLBenchを紹介する。このベンチマークは、ナビゲーションと操作領域にまたがるさまざまな難易度、静的環境と動的環境、多様なロボット力学、様々な観察モードを取り入れている。実験的な評価を通じて、既存のアプローチの強みと限界を特徴づけ、仕様や環境の複雑さが増大するにつれて生じる課題を明らかにする。 SpecRLBenchは、体系的な比較のための構造化されたプラットフォームを提供し、より一般化可能な仕様誘導RLメソッドの開発をサポートする。コードはhttps://github.com/BU-DEPEND-Lab/SpecRLBench.comで入手できる。

関連論文リスト

Zero-Shot Instruction Following in RL via Structured LTL Representations [50.41415009303967]
マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
論文参考訳（メタデータ） (2026-02-15T23:22:50Z)
Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-12-02T10:44:51Z)
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [53.85659415230589]
本稿では,広く採用されている強化学習手法を体系的にレビューする。特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文参考訳（メタデータ） (2025-08-11T17:39:45Z)
Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
BLADE: Benchmark suite for LLM-driven Automated Design and Evolution of iterative optimisation heuristics [2.2485774453793037]
BLADEは、連続的なブラックボックス最適化コンテキストにおいてLLM駆動のAADメソッドをベンチマークするためのフレームワークである。ベンチマーク問題とインスタンスジェネレータ、特殊化や情報エクスプロイトといった機能重視のテストを目的としたテキスト記述を統合する。 BLADEは、LCM駆動のAADアプローチを体系的に評価する、アウト・オブ・ザ・ボックスのソリューションを提供する。
論文参考訳（メタデータ） (2025-04-28T18:34:09Z)
Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文参考訳（メタデータ） (2024-12-10T15:56:03Z)
Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文参考訳（メタデータ） (2022-02-09T15:01:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。