論文の概要: Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach
- arxiv url: http://arxiv.org/abs/2412.06684v2
- Date: Sat, 14 Dec 2024 11:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:49:42.717043
- Title: Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach
- Title(参考訳): 意思決定ポリシーのクリティカルテストシナリオを探る - LLMアプローチ
- Authors: Weichao Xu, Huaxin Pei, Jingxuan Yang, Yuchen Shi, Yi Zhang, Qianchuan Zhao,
- Abstract要約: 本稿では,LLM(Adaptable Large Language Model)によるオンラインテストフレームワークを提案する。
具体的には、LLMの世界の知識と推論能力を活用するために、テンプレート付きプロンプトエンジニアリングを備えた「ジェネレーション・テスト・フィードバック」パイプラインを設計する。
- 参考スコア(独自算出の注目度): 14.32199539218175
- License:
- Abstract: Recent advances in decision-making policies have led to significant progress in fields such as autonomous driving and robotics. However, testing these policies remains crucial with the existence of critical scenarios that may threaten their reliability. Despite ongoing research, challenges such as low testing efficiency and limited diversity persist due to the complexity of the decision-making policies and their environments. To address these challenges, this paper proposes an adaptable Large Language Model (LLM)-driven online testing framework to explore critical and diverse testing scenarios for decision-making policies. Specifically, we design a "generate-test-feedback" pipeline with templated prompt engineering to harness the world knowledge and reasoning abilities of LLMs. Additionally, a multi-scale scenario generation strategy is proposed to address the limitations of LLMs in making fine-grained adjustments, further enhancing testing efficiency. Finally, the proposed LLM-driven method is evaluated on five widely recognized benchmarks, and the experimental results demonstrate that our method significantly outperforms baseline methods in uncovering both critical and diverse scenarios. These findings suggest that LLM-driven methods hold significant promise for advancing the testing of decision-making policies.
- Abstract(参考訳): 意思決定政策の最近の進歩は、自律運転やロボット工学といった分野に大きな進歩をもたらした。
しかしながら、これらのポリシのテストは、信頼性を脅かす重要なシナリオの存在において、依然として不可欠である。
進行中の研究にもかかわらず、意思決定ポリシーと環境の複雑さにより、テスト効率の低下や多様性の制限といった課題が続いている。
これらの課題に対処するため、本稿では、意思決定ポリシーの重要かつ多様なテストシナリオを探索する、適応型大規模言語モデル(LLM)駆動のオンラインテスティングフレームワークを提案する。
具体的には、LLMの世界の知識と推論能力を活用するために、テンプレート付きプロンプトエンジニアリングを備えた「ジェネレーション・テスト・フィードバック」パイプラインを設計する。
さらに, LLMの細粒度調整における限界に対処し, テスト効率の向上を図るため, マルチスケールシナリオ生成戦略を提案する。
最後に,提案手法は広く認識されている5つのベンチマークで評価し,本手法が重要なシナリオと多種多様なシナリオの両方を明らかにする上で,ベースライン法を著しく上回っていることを示す。
これらの結果から,LCM法は意思決定方針の立案に有効である可能性が示唆された。
関連論文リスト
- Uncertainty Quantification and Causal Considerations for Off-Policy Decision Making [4.514386953429771]
オフ政治評価(OPE)は、異なる政策の下で収集されたデータを用いて、新しい政策のパフォーマンスを評価する。
既存のOPE手法は、統計的不確実性や因果的考慮から生じるいくつかの制限に悩まされている。
結果の限界分布に着目して分散を低減する新しい OPE 手法である Marginal Ratio (MR) 推定器を導入する。
次に,OPEにおける不確実性定量化の原理的アプローチである Conformal Off-Policy Prediction (COPP) を提案する。
最後に, 政策外の意思決定における因果不確定性に対処する。
論文 参考訳(メタデータ) (2025-02-09T20:05:19Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward [9.218557081971708]
大規模言語モデル(LLM)は多くの分野にまたがって広く応用されている。
その限定的な解釈可能性によって、複数の側面からの安全な操作が懸念される。
近年,LLMの品質保証手法の開発が進められている。
論文 参考訳(メタデータ) (2024-04-12T14:55:16Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - An Empirical Comparison of Bias Reduction Methods on Real-World Problems
in High-Stakes Policy Settings [13.037143215464132]
4つの実世界の公共政策と社会善問題にまたがる機械学習パイプラインの異なる点で動作する複数の手法の性能について検討した。
モデルフェア性を改善するために,これらの手法の多種多様なバラツキと非一貫性を見出したが,グループ固有のスコアしきい値の選択による後処理は,一貫して差を除去している。
論文 参考訳(メタデータ) (2021-05-13T17:33:28Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。