Fugu-MT 論文翻訳(概要): Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL

論文の概要: Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL

arxiv url: http://arxiv.org/abs/2206.02039v1
Date: Sat, 4 Jun 2022 18:16:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-11 14:44:16.232593
Title: Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL
Title（参考訳）: 価値を超える - CHECKLISTによる計画ベースRLの推論テスト
Authors: Kin-Ho Lam, Delyar Tabatabai, Jed Irvine, Donald Bertucci, Anita Ruangrotsakun, Minsuk Kahng, Alan Fern
Abstract要約: 強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。本稿では,複雑なリアルタイム戦略ゲームを行うために訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者が関与するユーザスタディを提案する。
参考スコア（独自算出の注目度）: 20.360392791376707
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reinforcement learning (RL) agents are commonly evaluated via their expected value over a distribution of test scenarios. Unfortunately, this evaluation approach provides limited evidence for post-deployment generalization beyond the test distribution. In this paper, we address this limitation by extending the recent CheckList testing methodology from natural language processing to planning-based RL. Specifically, we consider testing RL agents that make decisions via online tree search using a learned transition model and value function. The key idea is to improve the assessment of future performance via a CheckList approach for exploring and assessing the agent's inferences during tree search. The approach provides the user with an interface and general query-rule mechanism for identifying potential inference flaws and validating expected inference invariances. We present a user study involving knowledgeable AI researchers using the approach to evaluate an agent trained to play a complex real-time strategy game. The results show the approach is effective in allowing users to identify previously-unknown flaws in the agent's reasoning. In addition, our analysis provides insight into how AI experts use this type of testing approach, which may help improve future instantiations.
Abstract（参考訳）: 強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。残念ながら、この評価手法は、試験分布を超えて展開後の一般化の限られた証拠を提供する。本稿では,最近のCheckListテスト手法を自然言語処理から計画ベースRLまで拡張することで,この制限に対処する。具体的には、学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。キーとなる考え方は、ツリー検索中のエージェントの推論を探索し評価するためのCheckListアプローチを通じて、将来のパフォーマンスの評価を改善することである。このアプローチは、潜在的な推論欠陥を特定し、期待される推論不変性を検証するためのインターフェースと一般的なクエリルールメカニズムを提供する。本稿では,複雑なリアルタイム戦略ゲームを行うように訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者によるユーザスタディを提案する。提案手法は, エージェントの推論における既知の欠陥を識別する上で有効であることを示す。さらに、我々の分析は、AIの専門家がこの種のテストアプローチをどのように使うかについての洞察を提供する。

関連論文リスト

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文参考訳（メタデータ） (2026-01-22T09:47:31Z)
TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文参考訳（メタデータ） (2026-01-11T14:07:30Z)
Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文参考訳（メタデータ） (2025-12-16T18:51:23Z)
Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。 Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文参考訳（メタデータ） (2025-10-08T00:20:35Z)
RAVine: Reality-Aligned Evaluation for Agentic Search [7.4420114967110385]
RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。 RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。 RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
論文参考訳（メタデータ） (2025-07-22T16:08:12Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models [56.32800938317095]
既存の検証器はテスト時の木探索技術に準最適である。トークン制御値モデル(TVM)を提案する。 TVMは各トークンに、正しい最終回答に達する確率を反映した確率を割り当てる。
論文参考訳（メタデータ） (2024-07-12T13:16:50Z)
Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。 OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文参考訳（メタデータ） (2024-06-12T08:31:34Z)
Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods [49.62131719441252]
属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定する。次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
論文参考訳（メタデータ） (2024-05-02T13:48:37Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer Review [4.081120388114928]
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
論文参考訳（メタデータ） (2023-09-11T13:51:40Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Cross-functional Analysis of Generalisation in Behavioural Learning [4.0810783261728565]
本稿では,異なるレベルの次元をまたいだ一般化を考慮した行動学習の分析手法であるBluGAを紹介する。集計スコアは、目に見えない機能(または過剰適合)への一般化を測定する
論文参考訳（メタデータ） (2023-05-22T11:54:19Z)
RACCER: Towards Reachable and Certain Counterfactual Explanations for Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文参考訳（メタデータ） (2023-03-08T09:47:00Z)
A Call to Reflect on Evaluation Practices for Failure Detection in Image Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文参考訳（メタデータ） (2022-11-28T12:25:27Z)
Evaluating Explainable Methods for Predictive Process Analytics: A Functionally-Grounded Approach [2.2448567386846916]
予測プロセス分析は、ビジネスプロセスの実行インスタンスの将来の状態を予測することに焦点を当てる。現在のLIMEやSHAPのような説明可能な機械学習手法は、ブラックボックスモデルの解釈に利用できる。 XGBoost上に構築されたプロセス予測モデルの解釈におけるLIMEとSHAPの性能評価に,提案手法を適用した。
論文参考訳（メタデータ） (2020-12-08T05:05:19Z)
Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文参考訳（メタデータ） (2020-02-10T00:26:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。