論文の概要: On the Limits of Tabular Hardness Metrics for Deep RL: A Study with the Pharos Benchmark
- arxiv url: http://arxiv.org/abs/2509.17092v1
- Date: Sun, 21 Sep 2025 14:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.11208
- Title: On the Limits of Tabular Hardness Metrics for Deep RL: A Study with the Pharos Benchmark
- Title(参考訳): 深部RLにおける口蓋硬度指標の限界について : Pharos Benchmarkによる検討
- Authors: Michelangelo Conserva, Remo Sasso, Paulo Rauber,
- Abstract要約: 我々は、原則付きRLベンチマークのための新しいオープンソースライブラリ、textttpharosを紹介した。
textttpharosは環境構造とエージェント表現の両方を体系的に制御できることを示す。
この研究は、新しい表現対応の硬度測定を緊急に必要とすることを強調し、それらを開発する上で重要なツールとしてtexttpharos を位置づけている。
- 参考スコア(独自算出の注目度): 3.186130813218338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Principled evaluation is critical for progress in deep reinforcement learning (RL), yet it lags behind the theory-driven benchmarks of tabular RL. While tabular settings benefit from well-understood hardness measures like MDP diameter and suboptimality gaps, deep RL benchmarks are often chosen based on intuition and popularity. This raises a critical question: can tabular hardness metrics be adapted to guide non-tabular benchmarking? We investigate this question and reveal a fundamental gap. Our primary contribution is demonstrating that the difficulty of non-tabular environments is dominated by a factor that tabular metrics ignore: representation hardness. The same underlying MDP can pose vastly different challenges depending on whether the agent receives state vectors or pixel-based observations. To enable this analysis, we introduce \texttt{pharos}, a new open-source library for principled RL benchmarking that allows for systematic control over both environment structure and agent representations. Our extensive case study using \texttt{pharos} shows that while tabular metrics offer some insight, they are poor predictors of deep RL agent performance on their own. This work highlights the urgent need for new, representation-aware hardness measures and positions \texttt{pharos} as a key tool for developing them.
- Abstract(参考訳): 原理的評価は深部強化学習(RL)の進歩に欠かせないが, 表状RLの理論駆動ベンチマークは遅れている。
表の設定は、MDPの直径や最適以下のギャップといったよく理解された硬度測定の恩恵を受ける一方、深いRLベンチマークは直感と人気に基づいて選択されることが多い。
表の硬度メトリクスは、非タブラルベンチマークのガイドに適応できるだろうか?
この問題を調査し、根本的なギャップを明らかにする。
我々の主な貢献は、非タブラル環境の難しさは、表のメトリクスが無視する要因である表現の硬さによって支配されていることを示しています。
同じ基礎にあるMDPは、エージェントが状態ベクトルを受け取るか、ピクセルベースの観察を受けるかによって、非常に異なる課題を引き起こす可能性がある。
この分析を可能にするために、環境構造とエージェント表現の両方を体系的に制御できる、原則付きRLベンチマークのための新しいオープンソースライブラリである \texttt{pharos} を紹介した。
筆者らは,表計算値がいくつかの洞察を与える一方で,深部RLエージェント性能の予測精度が低いことを明らかにした。
この研究は、新しい表現対応の硬度測定と、それらを開発するための重要なツールとしての位置 \texttt{pharos} の必要性を強調している。
関連論文リスト
- Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving [26.413753656936688]
大規模言語モデル(LLM)は、正確で検証可能な計算を必要とする数学的推論タスクに苦慮することが多い。
結果に基づく報酬から強化学習(RL)がテキストベースの推論を強化する一方で、エージェントがコード実行のような外部ツールを活用するために自律的に学習する方法を理解することは依然として重要である。
論文 参考訳(メタデータ) (2025-05-12T17:23:34Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Bridging RL Theory and Practice with the Effective Horizon [18.706109961534676]
先行境界は、深いRLが成功するか失敗するかは相関しないことを示す。
我々はこれを、有効地平線と呼ぶ新しいMDPの複雑さ尺度に一般化する。
また,既存の境界と異なり,実効地平線は報酬形成や事前訓練された探査政策を用いることの効果を予測できることがわかった。
論文 参考訳(メタデータ) (2023-04-19T17:59:01Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。