論文の概要: Reusable Test Suites for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.21553v1
- Date: Fri, 29 Aug 2025 12:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.030913
- Title: Reusable Test Suites for Reinforcement Learning
- Title(参考訳): 強化学習のための再利用可能なテストスイート
- Authors: Jørn Eirik Betten, Quentin Mazouni, Dennis Gross, Pedro Lind, Helge Spieker,
- Abstract要約: 本稿では,RL環境のための新しい自動テストスイート選択法であるMPTCS(Multi-Policy Test Case Selection)を提案する。
MPTCSは一連のポリシーを使用して、エージェントの行動に典型的な欠陥を示す、再利用可能なポリシーに依存しないテストケースのコレクションを選択する。
難易度スコアの有効性と,その方法の有効性とコストが,集合内のポリシーの数に依存するかを評価する。
- 参考スコア(独自算出の注目度): 1.5826476446078004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents show great promise in solving sequential decision-making tasks. However, validating the reliability and performance of the agent policies' behavior for deployment remains challenging. Most reinforcement learning policy testing methods produce test suites tailored to the agent policy being tested, and their relevance to other policies is unclear. This work presents Multi-Policy Test Case Selection (MPTCS), a novel automated test suite selection method for RL environments, designed to extract test cases generated by any policy testing framework based on their solvability, diversity, and general difficulty. MPTCS uses a set of policies to select a diverse collection of reusable policy-agnostic test cases that reveal typical flaws in the agents' behavior. The set of policies selects test cases from a candidate pool, which can be generated by any policy testing method, based on a difficulty score. We assess the effectiveness of the difficulty score and how the method's effectiveness and cost depend on the number of policies in the set. Additionally, a method for promoting diversity in the test suite, a discretized general test case descriptor surface inspired by quality-diversity algorithms, is examined to determine how it covers the state space and which policies it triggers to produce faulty behaviors.
- Abstract(参考訳): 強化学習(RL)エージェントは、シーケンシャルな意思決定タスクの解決において大きな可能性を秘めている。
しかし、エージェントポリシーの動作の信頼性と性能を検証することは依然として困難である。
多くの強化学習政策試験法は、試験対象のエージェントポリシーに適合したテストスイートを作成し、他のポリシーとの関連性は不明確である。
本研究は,RL環境の自動テストスイート選択手法であるMPTCS(Multi-Policy Test Case Selection)を提案する。
MPTCSは一連のポリシーを使用して、エージェントの行動に典型的な欠陥を示す、再利用可能なポリシーに依存しないテストケースのコレクションを選択する。
ポリシーのセットは、難易度スコアに基づいて、任意のポリシーテスト方法によって生成される候補プールからテストケースを選択する。
難易度スコアの有効性と,その方法の有効性とコストが,集合内のポリシーの数に依存するかを評価する。
また、品質多様性アルゴリズムにインスパイアされた離散化された一般的なテストケース記述体表面であるテストスイートの多様性を促進する手法について検討し、それが状態空間をどのようにカバーし、どのポリシーをトリガーして不良な振る舞いを発生させるかを決定する。
関連論文リスト
- Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach [14.32199539218175]
本稿では,LLM(Adaptable Large Language Model)によるオンラインテストフレームワークを提案する。
具体的には、LLMの世界の知識と推論能力を活用するために、テンプレート付きプロンプトエンジニアリングを備えた「ジェネレーション・テスト・フィードバック」パイプラインを設計する。
論文 参考訳(メタデータ) (2024-12-09T17:27:04Z) - Test Where Decisions Matter: Importance-driven Testing for Deep Reinforcement Learning [7.0247398611254175]
多くのDeep Reinforcement Learning (RL) 問題では、トレーニングされたポリシーにおける決定は、ポリシーの期待される安全性と性能において重要である。
状態空間全体にわたる状態重要度ランキングを厳格に計算する新しいモデルベース手法を提案する。
次に、最もランクの高い州にテストの取り組みを集中させます。
論文 参考訳(メタデータ) (2024-11-12T10:26:44Z) - How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Testing for Fault Diversity in Reinforcement Learning [13.133263651395865]
ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。
QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
論文 参考訳(メタデータ) (2024-03-22T09:46:30Z) - Composing Efficient, Robust Tests for Policy Selection [32.68102141512562]
より大規模なプールから少数のテストケースを選択するアルゴリズムであるRPOSSTを導入する。
RPOSSTはテストケース選択問題を2プレーヤゲームとして扱い、証明可能な$k$-of-N$ロバスト性を持つソリューションを優先する。
実験の結果,RPOSSTは,おもちゃのワンショットゲーム,ポーカーデータセット,高忠実度レーシングシミュレータにおいて,高品質なポリシーを識別する少数のテストケースが見つかった。
論文 参考訳(メタデータ) (2023-06-12T18:55:56Z) - Learnable Behavior Control: Breaking Atari Human World Records via
Sample-Efficient Behavior Selection [56.87650511573298]
本稿では,LBC(Learable Behavioral Control)と呼ばれるフレームワークを提案する。
我々のエージェントは10077.52%の平均正規化スコアを達成し、1Bのトレーニングフレーム内で24人の世界記録を突破した。
論文 参考訳(メタデータ) (2023-05-09T08:00:23Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。