論文の概要: Adaptive Stress Testing Black-Box LLM Planners
- arxiv url: http://arxiv.org/abs/2505.05665v1
- Date: Thu, 08 May 2025 21:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.093484
- Title: Adaptive Stress Testing Black-Box LLM Planners
- Title(参考訳): ブラックボックスLCMプランナの適応応力試験
- Authors: Neeloy Chakraborty, John Pohovey, Melkior Ornik, Katherine Driggs-Campbell,
- Abstract要約: 大規模言語モデル(LLM)は、意思決定タスク全体にわたる一般化の成功を最近証明した。
しかし、安全でないアウトプットと望ましくないアウトプットを幻覚させる傾向はリスクを引き起こす。
このような障害の検出は,特に安全クリティカルなシナリオにおいて必要である,と我々は主張する。
- 参考スコア(独自算出の注目度): 6.474403098238064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have recently demonstrated success in generalizing across decision-making tasks including planning, control and prediction, but their tendency to hallucinate unsafe and undesired outputs poses risks. We argue that detecting such failures is necessary, especially in safety-critical scenarios. Existing black-box methods often detect hallucinations by identifying inconsistencies across multiple samples. Many of these approaches typically introduce prompt perturbations like randomizing detail order or generating adversarial inputs, with the intuition that a confident model should produce stable outputs. We first perform a manual case study showing that other forms of perturbations (e.g., adding noise, removing sensor details) cause LLMs to hallucinate in a driving environment. We then propose a novel method for efficiently searching the space of prompt perturbations using Adaptive Stress Testing (AST) with Monte-Carlo Tree Search (MCTS). Our AST formulation enables discovery of scenarios and prompts that cause language models to act with high uncertainty. By generating MCTS prompt perturbation trees across diverse scenarios, we show that offline analyses can be used at runtime to automatically generate prompts that influence model uncertainty, and to inform real-time trust assessments of an LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、計画、制御、予測を含む意思決定タスクを一般化することに成功したが、安全でないアウトプットを幻覚させる傾向はリスクをもたらす。
このような障害の検出は,特に安全クリティカルなシナリオにおいて必要である,と我々は主張する。
既存のブラックボックス法は、複数のサンプルにまたがる不整合を識別することで幻覚を検出することが多い。
これらのアプローチの多くは、典型的には、詳細順序のランダム化や敵入力の生成のような急激な摂動を導入し、自信のあるモデルが安定した出力を生成するという直感をもっている。
まず,他の形態の摂動(例えば,ノイズの追加,センサの詳細の除去)がLCMを幻覚させることを示す手動ケーススタディを行った。
そこで我々は,モンテカルロ木探索 (MCTS) を用いた適応ストレステスト (AST) を用いて,迅速な摂動空間を効率的に探索する新しい手法を提案する。
我々のASTの定式化は、言語モデルに高い不確実性をもたらすシナリオやプロンプトの発見を可能にします。
様々なシナリオにまたがるMCTSプロンプト摂動木の生成により, モデルの不確実性に影響を与えるプロンプトを自動生成し, リアルタイムのLCMの信頼度評価を行う。
関連論文リスト
- Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? [7.416552590139255]
本研究では,2つの条件生成タスクにおける内因性幻覚を検出する能力に基づいて,オープンアクセス LLM スイートの評価を行った。
モデルの性能はタスクや言語によってどのように異なるかを研究する。
パフォーマンスはモデルによって異なるが、プロンプト間で一貫性がある。
論文 参考訳(メタデータ) (2025-04-29T12:30:05Z) - Feature-Aware Malicious Output Detection and Mitigation [8.378272216429954]
有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
論文 参考訳(メタデータ) (2025-04-12T12:12:51Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。