論文の概要: Adaptive Testing for LLM-Based Applications: A Diversity-based Approach
- arxiv url: http://arxiv.org/abs/2501.13480v1
- Date: Thu, 23 Jan 2025 08:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:36.707508
- Title: Adaptive Testing for LLM-Based Applications: A Diversity-based Approach
- Title(参考訳): LLMベースのアプリケーションのための適応テスト:多様性に基づくアプローチ
- Authors: Juyeon Yoon, Robert Feldt, Shin Yoo,
- Abstract要約: 本稿では,適応ランダムテスト(ART)のような多様性に基づくテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。
いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果,本手法が試験予算の削減による故障の発見を可能にすることを確認した。
- 参考スコア(独自算出の注目度): 15.33985438101206
- License:
- Abstract: The recent surge of building software systems powered by Large Language Models (LLMs) has led to the development of various testing frameworks, primarily focused on treating prompt templates as the unit of testing. Despite the significant costs associated with test input execution and output assessment, the curation of optimized test suites is yet overlooked in these tools, which calls for tailored test selection or prioritization strategies. In this paper, we show that diversity-based testing techniques, such as Adaptive Random Testing (ART) with appropriate string distance metrics, can be effectively applied to the testing of prompt templates. Our proposed adaptive testing approach adjusts the conventional ART process to this context by selecting new test inputs based on scores derived from existing test suite and their labelling results. Our results, obtained using various implementations that explore several string-based distances, confirm that our approach enables the discovery of failures with reduced testing budgets and promotes the generation of more varied outputs.
- Abstract(参考訳): 最近、LLM(Large Language Models)を利用したソフトウェアシステムの構築が急増し、様々なテスティングフレームワークが開発され、主にプロンプトテンプレートをテスト単位として扱うことに焦点が当てられている。
テスト入力の実行とアウトプットアセスメントに関連する大きなコストにもかかわらず、最適化されたテストスイートのキュレーションは、これらのツールではまだ見過ごされている。
本稿では,適応ランダムテスト(ART)や適切な文字列距離の計測値を用いた多様性ベースのテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。
提案手法は,既存のテストスイートから得られるスコアとラベル付け結果に基づいて,新しいテスト入力を選択することで,従来のARTプロセスをこの文脈に適応させる。
いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果から,本手法が試験予算の削減による故障の発見を可能にし,より多様な出力の生成を促進することが確認された。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Measuring Software Testability via Automatically Generated Test Cases [8.17364116624769]
ソフトウェアメトリクスに基づいたテスト容易性測定のための新しい手法を提案する。
提案手法は, 自動検査生成と突然変異解析を利用して, 有効な検査症例の相対的硬度に関する証拠を定量化する。
論文 参考訳(メタデータ) (2023-07-30T09:48:51Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Validation of massively-parallel adaptive testing using dynamic control
matching [0.0]
現代のビジネスはしばしば同時に多数のA/B/nテストを実行し、多くのコンテンツバリエーションを同じメッセージにパッケージ化する。
本稿では, 連続試験適応条件下での各種試験の因果効果を解消する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T11:28:12Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Hybrid Intelligent Testing in Simulation-Based Verification [0.0]
数百万のテストは、カバレッジの目標を達成するために必要かもしれない。
カバレッジ指向のテスト選択は、カバレッジフィードバックからバイアステストまで、最も効果的なテストへと学習する。
ノベルティ駆動検証は、以前の刺激とは異なる刺激を識別し、シミュレートすることを学ぶ。
論文 参考訳(メタデータ) (2022-05-19T13:22:08Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Machine Learning Testing in an ADAS Case Study Using
Simulation-Integrated Bio-Inspired Search-Based Testing [7.5828169434922]
Deeperは、ディープニューラルネットワークベースの車線保持システムをテストするための障害検出テストシナリオを生成する。
新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$(mu+lambda)$および$(mu,lambda)$進化戦略(ES)、およびParticle Swarm Optimization(PSO)を利用する。
評価の結果,Deeperで新たに提案したテストジェネレータは,以前のバージョンよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-22T20:27:40Z) - Online GANs for Automatic Performance Testing [0.10312968200748115]
GAN(Generative Adversarial Network)のオンライン版を利用した自動パフォーマンステストのための新しいアルゴリズムを提案する。
提案手法では、テスト中のシステムの事前のトレーニングセットやモデルを必要としない。
我々は,提案アルゴリズムが概念実証として機能し,GANの試験生成への応用に関する研究議論の火花となることを期待する。
論文 参考訳(メタデータ) (2021-04-21T06:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。