論文の概要: Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach
- arxiv url: http://arxiv.org/abs/2412.06684v1
- Date: Mon, 09 Dec 2024 17:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:42.530276
- Title: Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach
- Title(参考訳): 意思決定ポリシーのクリティカルテストシナリオを探る - LLMアプローチ
- Authors: Weichao Xu, Huaxin Pei, Jingxuan Yang, Yuchen Shi, Yi Zhang,
- Abstract要約: 意思決定ポリシーのテストは、信頼性を脅かす重要なシナリオの存在に不可欠です。
意思決定ポリシーを効率的にテストするためのLLM駆動オンラインテストフレームワークを提案する。
本手法は, 重要なシナリオと多様なシナリオの両方を明らかにする上で, ベースラインアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 8.030696730116798
- License:
- Abstract: Recent years have witnessed surprising achievements of decision-making policies across various fields, such as autonomous driving and robotics. Testing for decision-making policies is crucial with the existence of critical scenarios that may threaten their reliability. Numerous research efforts have been dedicated to testing these policies. However, there are still significant challenges, such as low testing efficiency and diversity due to the complexity of the policies and environments under test. Inspired by the remarkable capabilities of large language models (LLMs), in this paper, we propose an LLM-driven online testing framework for efficiently testing decision-making policies. The main idea is to employ an LLM-based test scenario generator to intelligently generate challenging test cases through contemplation and reasoning. Specifically, we first design a "generate-test-feedback" pipeline and apply templated prompt engineering to fully leverage the knowledge and reasoning abilities of LLMs. Then, we introduce a multi-scale scenario generation strategy to address the inherent challenges LLMs face in making fine adjustments, further enhancing testing efficiency. Finally, we evaluate the LLM-driven approach on five widely used benchmarks. The experimental results demonstrate that our method significantly outperforms baseline approaches in uncovering both critical and diverse scenarios.
- Abstract(参考訳): 近年、自律運転やロボット工学など、さまざまな分野における意思決定政策の驚くべき成果が見られた。
意思決定ポリシーのテストは、信頼性を脅かす重要なシナリオの存在に不可欠です。
これらの政策の試験に多くの研究努力が注がれている。
しかしながら、テスト中のポリシーや環境の複雑さによるテスト効率の低下や多様性など、依然として大きな課題があります。
本稿では,大規模言語モデル(LLM)の顕著な機能に着想を得て,意思決定ポリシーを効率的にテストするためのLLM駆動オンラインテスティングフレームワークを提案する。
第一のアイデアは、LLMベースのテストシナリオジェネレータを使用して、熟考と推論を通じて挑戦的なテストケースをインテリジェントに生成することです。
具体的には、まず「ジェネレーションテストフィードバック」パイプラインを設計し、テンプレート化されたプロンプトエンジニアリングを適用してLLMの知識と推論能力を完全に活用する。
次に, LLMが微調整を行う上で直面する課題に対処し, テスト効率をより高めるため, マルチスケールシナリオ生成戦略を導入する。
最後に,5つの広く使用されているベンチマークに対してLLM駆動のアプローチを評価する。
実験結果から,本手法は重要なシナリオと多様なシナリオの両方を明らかにする上で,ベースラインアプローチを著しく上回っていることが示された。
関連論文リスト
- Uncertainty Quantification and Causal Considerations for Off-Policy Decision Making [4.514386953429771]
オフ政治評価(OPE)は、異なる政策の下で収集されたデータを用いて、新しい政策のパフォーマンスを評価する。
既存のOPE手法は、統計的不確実性や因果的考慮から生じるいくつかの制限に悩まされている。
結果の限界分布に着目して分散を低減する新しい OPE 手法である Marginal Ratio (MR) 推定器を導入する。
次に,OPEにおける不確実性定量化の原理的アプローチである Conformal Off-Policy Prediction (COPP) を提案する。
最後に, 政策外の意思決定における因果不確定性に対処する。
論文 参考訳(メタデータ) (2025-02-09T20:05:19Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward [9.218557081971708]
大規模言語モデル(LLM)は多くの分野にまたがって広く応用されている。
その限定的な解釈可能性によって、複数の側面からの安全な操作が懸念される。
近年,LLMの品質保証手法の開発が進められている。
論文 参考訳(メタデータ) (2024-04-12T14:55:16Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - An Empirical Comparison of Bias Reduction Methods on Real-World Problems
in High-Stakes Policy Settings [13.037143215464132]
4つの実世界の公共政策と社会善問題にまたがる機械学習パイプラインの異なる点で動作する複数の手法の性能について検討した。
モデルフェア性を改善するために,これらの手法の多種多様なバラツキと非一貫性を見出したが,グループ固有のスコアしきい値の選択による後処理は,一貫して差を除去している。
論文 参考訳(メタデータ) (2021-05-13T17:33:28Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。