論文の概要: Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach
- arxiv url: http://arxiv.org/abs/2412.06684v1
- Date: Mon, 09 Dec 2024 17:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:42.530276
- Title: Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach
- Title(参考訳): 意思決定ポリシーのクリティカルテストシナリオを探る - LLMアプローチ
- Authors: Weichao Xu, Huaxin Pei, Jingxuan Yang, Yuchen Shi, Yi Zhang,
- Abstract要約: 意思決定ポリシーのテストは、信頼性を脅かす重要なシナリオの存在に不可欠です。
意思決定ポリシーを効率的にテストするためのLLM駆動オンラインテストフレームワークを提案する。
本手法は, 重要なシナリオと多様なシナリオの両方を明らかにする上で, ベースラインアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 8.030696730116798
- License:
- Abstract: Recent years have witnessed surprising achievements of decision-making policies across various fields, such as autonomous driving and robotics. Testing for decision-making policies is crucial with the existence of critical scenarios that may threaten their reliability. Numerous research efforts have been dedicated to testing these policies. However, there are still significant challenges, such as low testing efficiency and diversity due to the complexity of the policies and environments under test. Inspired by the remarkable capabilities of large language models (LLMs), in this paper, we propose an LLM-driven online testing framework for efficiently testing decision-making policies. The main idea is to employ an LLM-based test scenario generator to intelligently generate challenging test cases through contemplation and reasoning. Specifically, we first design a "generate-test-feedback" pipeline and apply templated prompt engineering to fully leverage the knowledge and reasoning abilities of LLMs. Then, we introduce a multi-scale scenario generation strategy to address the inherent challenges LLMs face in making fine adjustments, further enhancing testing efficiency. Finally, we evaluate the LLM-driven approach on five widely used benchmarks. The experimental results demonstrate that our method significantly outperforms baseline approaches in uncovering both critical and diverse scenarios.
- Abstract(参考訳): 近年、自律運転やロボット工学など、さまざまな分野における意思決定政策の驚くべき成果が見られた。
意思決定ポリシーのテストは、信頼性を脅かす重要なシナリオの存在に不可欠です。
これらの政策の試験に多くの研究努力が注がれている。
しかしながら、テスト中のポリシーや環境の複雑さによるテスト効率の低下や多様性など、依然として大きな課題があります。
本稿では,大規模言語モデル(LLM)の顕著な機能に着想を得て,意思決定ポリシーを効率的にテストするためのLLM駆動オンラインテスティングフレームワークを提案する。
第一のアイデアは、LLMベースのテストシナリオジェネレータを使用して、熟考と推論を通じて挑戦的なテストケースをインテリジェントに生成することです。
具体的には、まず「ジェネレーションテストフィードバック」パイプラインを設計し、テンプレート化されたプロンプトエンジニアリングを適用してLLMの知識と推論能力を完全に活用する。
次に, LLMが微調整を行う上で直面する課題に対処し, テスト効率をより高めるため, マルチスケールシナリオ生成戦略を導入する。
最後に,5つの広く使用されているベンチマークに対してLLM駆動のアプローチを評価する。
実験結果から,本手法は重要なシナリオと多様なシナリオの両方を明らかにする上で,ベースラインアプローチを著しく上回っていることが示された。
関連論文リスト
- Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions [15.350973327319418]
大規模言語モデル(LLM)は、ますます広範囲の日常アプリケーションに統合されている。
このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。
GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70Bをチェーン・オブ・ソート, EmotionPrompting, ExpertPrompting, Sandbagging, Re-Reading prompt Engineering Techniqueでテストした。
論文 参考訳(メタデータ) (2024-09-30T14:00:34Z) - Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations [4.207253227315905]
我々は、カスタマイズされたデモを容易にする問題解決フレームワークSELF-TAUGHTを提案する。
複数選択質問の15のタスクにおいて、SELF-TAUGHTは強いベースラインよりも優れたパフォーマンスを達成する。
我々はSELF-TAUGHTの包括的解析を行い、既存のプロンプト法への一般化性について述べる。
論文 参考訳(メタデータ) (2024-08-22T11:41:35Z) - Active Testing of Large Language Model via Multi-Stage Sampling [17.89896012553348]
AcTracerは,大規模言語モデル(LLM)に適した,アクティブなテストフレームワークである。
ほぼ最適な性能推定を達成するために、戦略的にテストデータの小さなサブセットを選択する。
実験の結果,AcTracerは既存手法と比較して最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-08-07T06:17:48Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward [9.218557081971708]
大規模言語モデル(LLM)は多くの分野にまたがって広く応用されている。
その限定的な解釈可能性によって、複数の側面からの安全な操作が懸念される。
近年,LLMの品質保証手法の開発が進められている。
論文 参考訳(メタデータ) (2024-04-12T14:55:16Z) - Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena [25.865825113847404]
オークションをシミュレートする新しい評価スイートであるAucArenaを紹介する。
我々は,最先端の大規模言語モデル(LLM)を用いて,入札エージェントによる計画と実行スキルのベンチマークを行う制御実験を行う。
論文 参考訳(メタデータ) (2023-10-09T14:22:09Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。