論文の概要: STELLAR: A Search-Based Testing Framework for Large Language Model Applications
- arxiv url: http://arxiv.org/abs/2601.00497v2
- Date: Mon, 05 Jan 2026 18:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.843254
- Title: STELLAR: A Search-Based Testing Framework for Large Language Model Applications
- Title(参考訳): STELLAR: 大規模言語モデルアプリケーションのための検索ベースのテストフレームワーク
- Authors: Lev Sorokin, Ivan Vasilev, Ken E. Friedl, Andrea Stocco,
- Abstract要約: LLM(Large Language Model)ベースのアプリケーションは、顧客サービス、教育、モビリティなど、さまざまな領域に展開されている。
これらのシステムは不正確、虚偽、有害な応答をしがちであり、その巨大で高次元の入力空間は、特に系統的なテストが困難である。
本稿では,LLMベースのアプリケーションを対象とした自動検索ベースのテストフレームワークSTELLARについて述べる。
- 参考スコア(独自算出の注目度): 1.0125319485475452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based applications are increasingly deployed across various domains, including customer service, education, and mobility. However, these systems are prone to inaccurate, fictitious, or harmful responses, and their vast, high-dimensional input space makes systematic testing particularly challenging. To address this, we present STELLAR, an automated search-based testing framework for LLM-based applications that systematically uncovers text inputs leading to inappropriate system responses. Our framework models test generation as an optimization problem and discretizes the input space into stylistic, content-related, and perturbation features. Unlike prior work that focuses on prompt optimization or coverage heuristics, our work employs evolutionary optimization to dynamically explore feature combinations that are more likely to expose failures. We evaluate STELLAR on three LLM-based conversational question-answering systems. The first focuses on safety, benchmarking both public and proprietary LLMs against malicious or unsafe prompts. The second and third target navigation, using an open-source and an industrial retrieval-augmented system for in-vehicle venue recommendations. Overall, STELLAR exposes up to 4.3 times (average 2.5 times) more failures than the existing baseline approaches.
- Abstract(参考訳): LLM(Large Language Model)ベースのアプリケーションは、顧客サービス、教育、モビリティなど、さまざまな領域に展開されている。
しかし、これらのシステムは不正確、虚偽、有害な応答をしがちであり、その巨大で高次元の入力空間は、特に系統的なテストが困難である。
そこで本研究では,LLMベースのアプリケーションを対象とした自動検索ベースのテストフレームワークSTELLARを提案する。
本フレームワークは,テスト生成を最適化問題としてモデル化し,入力空間をスタイリスティック,コンテンツ関連,摂動機能に分解する。
迅速な最適化やカバレッジヒューリスティックに重点を置く以前の作業とは異なり、私たちの作業では、機能の組み合わせを動的に探索するために、進化的な最適化を採用しています。
3つのLLMに基づく対話型質問応答システム上でSTELLARを評価する。
1つ目は安全性に焦点を当て、悪意のあるプロンプトや安全でないプロンプトに対して、パブリックとプロプライエタリの両方のLSMをベンチマークする。
第2と第3のターゲットナビゲーションは、オープンソースと産業用検索拡張システムを使用して、車内会場のレコメンデーションを推奨する。
全体として、STELLARは既存のベースラインアプローチよりも最大4.3倍(平均2.5倍)の障害を発生させる。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。
第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。
第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文 参考訳(メタデータ) (2025-07-14T14:34:15Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。
LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。
これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文 参考訳(メタデータ) (2024-02-09T18:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。