論文の概要: RITFIS: Robust input testing framework for LLMs-based intelligent
software
- arxiv url: http://arxiv.org/abs/2402.13518v1
- Date: Wed, 21 Feb 2024 04:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:09:25.349997
- Title: RITFIS: Robust input testing framework for LLMs-based intelligent
software
- Title(参考訳): RITFIS:LLMベースのインテリジェントソフトウェアのためのロバスト入力テストフレームワーク
- Authors: Mingxuan Xiao, Yan Xiao, Hai Dong, Shunhui Ji and Pengcheng Zhang
- Abstract要約: RITFISは、自然言語入力に対するインテリジェントソフトウェアの堅牢性を評価するために設計された最初のフレームワークである。
RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計された。
LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証的検証により示す。
- 参考スコア(独自算出の注目度): 6.439196068684973
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The dependence of Natural Language Processing (NLP) intelligent software on
Large Language Models (LLMs) is increasingly prominent, underscoring the
necessity for robustness testing. Current testing methods focus solely on the
robustness of LLM-based software to prompts. Given the complexity and diversity
of real-world inputs, studying the robustness of LLMbased software in handling
comprehensive inputs (including prompts and examples) is crucial for a thorough
understanding of its performance.
To this end, this paper introduces RITFIS, a Robust Input Testing Framework
for LLM-based Intelligent Software. To our knowledge, RITFIS is the first
framework designed to assess the robustness of LLM-based intelligent software
against natural language inputs. This framework, based on given threat models
and prompts, primarily defines the testing process as a combinatorial
optimization problem. Successful test cases are determined by a goal function,
creating a transformation space for the original examples through perturbation
means, and employing a series of search methods to filter cases that meet both
the testing objectives and language constraints. RITFIS, with its modular
design, offers a comprehensive method for evaluating the robustness of LLMbased
intelligent software.
RITFIS adapts 17 automated testing methods, originally designed for Deep
Neural Network (DNN)-based intelligent software, to the LLM-based software
testing scenario. It demonstrates the effectiveness of RITFIS in evaluating
LLM-based intelligent software through empirical validation. However, existing
methods generally have limitations, especially when dealing with lengthy texts
and structurally complex threat models. Therefore, we conducted a comprehensive
analysis based on five metrics and provided insightful testing method
optimization strategies, benefiting both researchers and everyday users.
- Abstract(参考訳): 自然言語処理(NLP)の知的ソフトウェアがLarge Language Models(LLM)に依存していることは、堅牢性テストの必要性を浮き彫りにしている。
現在のテスト手法は、LSMベースのソフトウェアによるプロンプトの堅牢性にのみ焦点をあてている。
実世界のインプットの複雑さと多様性を考えると、総合的なインプット(プロンプトや例を含む)を扱うLLMベースのソフトウェアの堅牢性を研究することは、そのパフォーマンスを徹底的に理解するために重要である。
本稿では,LLMベースの知的ソフトウェアのためのロバスト入力テストフレームワークであるRITFISを紹介する。
我々の知る限り、RITFISはLLMベースのインテリジェントソフトウェアが自然言語入力に対して堅牢であることを評価するために設計された最初のフレームワークである。
このフレームワークは、与えられた脅威モデルとプロンプトに基づいて、主にテストプロセスを組合せ最適化問題として定義する。
成功したテストケースは、目標関数によって決定され、摂動手段を通じて元の例の変換空間を作成し、テスト目的と言語制約の両方を満たすケースをフィルタリングするために一連の検索手法を用いる。
RITFISはモジュール設計で、LLMベースの知的ソフトウェアの堅牢性を評価する包括的手法を提供する。
RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計されていた。
LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証検証により示す。
しかし、特に長いテキストと構造的に複雑な脅威モデルを扱う場合、既存の方法には一般的に制限がある。
そこで我々は,5つの指標に基づく総合的な分析を行い,研究者と日常ユーザの両方にとって有益な,洞察に富んだテスト方法の最適化戦略を提供する。
関連論文リスト
- On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
我々のフレームワークはLLMベースのアルゴリズムの進歩を約束している。
LLMアルゴリズムのさらなる研究を促進するため、ソースコードはhttps://github.com/modelscope/agentscope/tree/main/examples/paper_llm_based_algorithmで公開しています。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic [2.1073328551105623]
LLM-ARCは,Large Language Models (LLM) の論理的推論能力を高めるために設計された,ニューロシンボリックなフレームワークである。
LLM-ARC は Actor-Critic 方式を採用しており、LLM アクターは宣言論理プログラムと意味的正当性テストを生成し、Automated Reasoning Critic はコードを評価し、テストを実行し、反復的洗練のためのテスト失敗に対するフィードバックを提供する。
実験では,LLMのみのベースラインよりも大幅に改善され,論理的テスト生成と反復的自己精製の重要性が強調された。
論文 参考訳(メタデータ) (2024-06-25T15:52:15Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
Benchは、大規模言語モデルに対して、139のライブラリと7つのドメインから1,140のきめ細かいプログラミングタスクのためのツールとして、複数の関数呼び出しを実行するためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [85.51252685938564]
不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。
他のMLモデルと同様に、大きな言語モデル(LLM)は、クレームを作成することによって誤った予測をする傾向があり、あるいは与えられた入力に対して単に低品質の出力を生成する。
本稿では,最先端のUQベースラインの集合を実装した新しいベンチマークを提案し,新しいテクニックを制御可能かつ一貫した評価を行う環境を提供する。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Enhancing LLM-based Test Generation for Hard-to-Cover Branches via Program Analysis [8.31978033489419]
難解な分岐に到達可能なテストを生成する新しい技術である TELPA を提案する。
27のオープンソースPythonプロジェクトに対する実験結果から,TELPAは最先端のSBSTやLLMベースの技術よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-04-07T14:08:28Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - A Case Study on Test Case Construction with Large Language Models:
Unveiling Practical Insights and Challenges [2.7029792239733914]
本稿では,ソフトウェア工学の文脈におけるテストケース構築における大規模言語モデルの適用について検討する。
定性分析と定量分析の混合により, LLMが試験ケースの包括性, 精度, 効率に与える影響を評価する。
論文 参考訳(メタデータ) (2023-12-19T20:59:02Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。