論文の概要: Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL
- arxiv url: http://arxiv.org/abs/2206.02039v1
- Date: Sat, 4 Jun 2022 18:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 14:44:16.232593
- Title: Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL
- Title(参考訳): 価値を超える - CHECKLISTによる計画ベースRLの推論テスト
- Authors: Kin-Ho Lam, Delyar Tabatabai, Jed Irvine, Donald Bertucci, Anita
Ruangrotsakun, Minsuk Kahng, Alan Fern
- Abstract要約: 強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。
学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。
本稿では,複雑なリアルタイム戦略ゲームを行うために訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者が関与するユーザスタディを提案する。
- 参考スコア(独自算出の注目度): 20.360392791376707
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning (RL) agents are commonly evaluated via their expected
value over a distribution of test scenarios. Unfortunately, this evaluation
approach provides limited evidence for post-deployment generalization beyond
the test distribution. In this paper, we address this limitation by extending
the recent CheckList testing methodology from natural language processing to
planning-based RL. Specifically, we consider testing RL agents that make
decisions via online tree search using a learned transition model and value
function. The key idea is to improve the assessment of future performance via a
CheckList approach for exploring and assessing the agent's inferences during
tree search. The approach provides the user with an interface and general
query-rule mechanism for identifying potential inference flaws and validating
expected inference invariances. We present a user study involving knowledgeable
AI researchers using the approach to evaluate an agent trained to play a
complex real-time strategy game. The results show the approach is effective in
allowing users to identify previously-unknown flaws in the agent's reasoning.
In addition, our analysis provides insight into how AI experts use this type of
testing approach, which may help improve future instantiations.
- Abstract(参考訳): 強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。
残念ながら、この評価手法は、試験分布を超えて展開後の一般化の限られた証拠を提供する。
本稿では,最近のCheckListテスト手法を自然言語処理から計画ベースRLまで拡張することで,この制限に対処する。
具体的には、学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。
キーとなる考え方は、ツリー検索中のエージェントの推論を探索し評価するためのCheckListアプローチを通じて、将来のパフォーマンスの評価を改善することである。
このアプローチは、潜在的な推論欠陥を特定し、期待される推論不変性を検証するためのインターフェースと一般的なクエリルールメカニズムを提供する。
本稿では,複雑なリアルタイム戦略ゲームを行うように訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者によるユーザスタディを提案する。
提案手法は, エージェントの推論における既知の欠陥を識別する上で有効であることを示す。
さらに、我々の分析は、AIの専門家がこの種のテストアプローチをどのように使うかについての洞察を提供する。
関連論文リスト
- Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review [4.081120388114928]
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。
本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
論文 参考訳(メタデータ) (2023-09-11T13:51:40Z) - Cross-functional Analysis of Generalisation in Behavioural Learning [4.0810783261728565]
本稿では,異なるレベルの次元をまたいだ一般化を考慮した行動学習の分析手法であるBluGAを紹介する。
集計スコアは、目に見えない機能(または過剰適合)への一般化を測定する
論文 参考訳(メタデータ) (2023-05-22T11:54:19Z) - RACCER: Towards Reachable and Certain Counterfactual Explanations for
Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。
木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。
我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-03-08T09:47:00Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic
Approach [59.77710485234197]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [89.01584399789951]
歴史的専門家の意思決定を豊富な情報源として利用することを検討します。
観察されたラベルだけで学習する制限を緩和するために活用できることを示しています。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Evaluating Explainable Methods for Predictive Process Analytics: A
Functionally-Grounded Approach [2.2448567386846916]
予測プロセス分析は、ビジネスプロセスの実行インスタンスの将来の状態を予測することに焦点を当てる。
現在のLIMEやSHAPのような説明可能な機械学習手法は、ブラックボックスモデルの解釈に利用できる。
XGBoost上に構築されたプロセス予測モデルの解釈におけるLIMEとSHAPの性能評価に,提案手法を適用した。
論文 参考訳(メタデータ) (2020-12-08T05:05:19Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。