論文の概要: Composing Efficient, Robust Tests for Policy Selection
- arxiv url: http://arxiv.org/abs/2306.07372v1
- Date: Mon, 12 Jun 2023 18:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:09:19.973799
- Title: Composing Efficient, Robust Tests for Policy Selection
- Title(参考訳): 効率的で堅牢な政策選択テストの作成
- Authors: Dustin Morrill, Thomas J. Walsh, Daniel Hernandez, Peter R. Wurman,
Peter Stone
- Abstract要約: より大規模なプールから少数のテストケースを選択するアルゴリズムであるRPOSSTを導入する。
RPOSSTはテストケース選択問題を2プレーヤゲームとして扱い、証明可能な$k$-of-N$ロバスト性を持つソリューションを優先する。
実験の結果,RPOSSTは,おもちゃのワンショットゲーム,ポーカーデータセット,高忠実度レーシングシミュレータにおいて,高品質なポリシーを識別する少数のテストケースが見つかった。
- 参考スコア(独自算出の注目度): 32.68102141512562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern reinforcement learning systems produce many high-quality policies
throughout the learning process. However, to choose which policy to actually
deploy in the real world, they must be tested under an intractable number of
environmental conditions. We introduce RPOSST, an algorithm to select a small
set of test cases from a larger pool based on a relatively small number of
sample evaluations. RPOSST treats the test case selection problem as a
two-player game and optimizes a solution with provable $k$-of-$N$ robustness,
bounding the error relative to a test that used all the test cases in the pool.
Empirical results demonstrate that RPOSST finds a small set of test cases that
identify high quality policies in a toy one-shot game, poker datasets, and a
high-fidelity racing simulator.
- Abstract(参考訳): 現代の強化学習システムは、学習プロセス全体で多くの高品質な政策を生み出している。
しかし、現実の世界に実際に展開する政策を選択するには、それらは多くの環境条件下でテストされなければならない。
本研究では,比較的少数のサンプル評価に基づいて,より大きなプールから少数のテストケースを選択するアルゴリズムであるrposstを紹介する。
rposstはテストケース選択問題を2人プレイのゲームとして扱い、証明可能な$k$-of-$n$ロバスト性でソリューションを最適化し、プール内のすべてのテストケースを使用したテストに対してエラーをバインドする。
実験の結果,RPOSSTは,おもちゃのワンショットゲーム,ポーカーデータセット,高忠実度レーシングシミュレータにおいて,高品質なポリシーを識別する少数のテストケースが見つかった。
関連論文リスト
- Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection [1.4530711901349282]
TTA(Test-Time Adaptation)は、分散シフト下での機械学習モデルロバストネスの問題に対処するための有望な戦略として登場した。
我々は,サロゲートベースのhp選択戦略を用いて既存のTTA手法を評価し,その性能をより現実的に評価する。
論文 参考訳(メタデータ) (2024-07-19T11:58:30Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Supervised Learning for Coverage-Directed Test Selection in
Simulation-Based Verification [0.0]
本稿では,自動制約抽出とテスト選択のための新しい手法を提案する。
カバレッジ指向のテスト選択は、カバレッジフィードバックからの教師付き学習に基づいている。
本稿では,手作業による制約記述の低減,効果的なテストの優先順位付け,検証資源の消費の低減,大規模で実生活のハードウェア設計におけるカバレッジ閉鎖の促進について述べる。
論文 参考訳(メタデータ) (2022-05-17T17:49:30Z) - Machine Learning Testing in an ADAS Case Study Using
Simulation-Integrated Bio-Inspired Search-Based Testing [7.5828169434922]
Deeperは、ディープニューラルネットワークベースの車線保持システムをテストするための障害検出テストシナリオを生成する。
新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$(mu+lambda)$および$(mu,lambda)$進化戦略(ES)、およびParticle Swarm Optimization(PSO)を利用する。
評価の結果,Deeperで新たに提案したテストジェネレータは,以前のバージョンよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-22T20:27:40Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Bloom Origami Assays: Practical Group Testing [90.2899558237778]
グループテストは、いくつかの魅力的なソリューションでよく研究されている問題である。
近年の生物学的研究は、従来の方法と相容れない新型コロナウイルスの実践的な制約を課している。
我々は,Bloomフィルタと信条伝搬を組み合わせた新しい手法を開発し,n(100以上)の大きい値に拡張し,良好な経験的結果を得る。
論文 参考訳(メタデータ) (2020-07-21T19:31:41Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。