論文の概要: METAL: Metamorphic Testing Framework for Analyzing Large-Language Model
Qualities
- arxiv url: http://arxiv.org/abs/2312.06056v1
- Date: Mon, 11 Dec 2023 01:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:16:40.082818
- Title: METAL: Metamorphic Testing Framework for Analyzing Large-Language Model
Qualities
- Title(参考訳): METAL:大規模言語モデル品質分析のためのメタモルフィックテスティングフレームワーク
- Authors: Sangwon Hyun, Mingyu Guo, M. Ali Babar
- Abstract要約: 大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。
近年,LLMの品質属性(QA)は,逆入力テキストを生成することで検証されている。
本稿では,これらの問題に対処するメタモルフィック・テスト・フォー・アナライズ・LLM(METAL)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.493507573183107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-Language Models (LLMs) have shifted the paradigm of natural language
data processing. However, their black-boxed and probabilistic characteristics
can lead to potential risks in the quality of outputs in diverse LLM
applications. Recent studies have tested Quality Attributes (QAs), such as
robustness or fairness, of LLMs by generating adversarial input texts. However,
existing studies have limited their coverage of QAs and tasks in LLMs and are
difficult to extend. Additionally, these studies have only used one evaluation
metric, Attack Success Rate (ASR), to assess the effectiveness of their
approaches. We propose a MEtamorphic Testing for Analyzing LLMs (METAL)
framework to address these issues by applying Metamorphic Testing (MT)
techniques. This approach facilitates the systematic testing of LLM qualities
by defining Metamorphic Relations (MRs), which serve as modularized evaluation
metrics. The METAL framework can automatically generate hundreds of MRs from
templates that cover various QAs and tasks. In addition, we introduced novel
metrics that integrate the ASR method into the semantic qualities of text to
assess the effectiveness of MRs accurately. Through the experiments conducted
with three prominent LLMs, we have confirmed that the METAL framework
effectively evaluates essential QAs on primary LLM tasks and reveals the
quality risks in LLMs. Moreover, the newly proposed metrics can guide the
optimal MRs for testing each task and suggest the most effective method for
generating MRs.
- Abstract(参考訳): 大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。
しかしながら、それらのブラックボックス化と確率的特性は、多様なLCMアプリケーションにおける出力の品質に潜在的なリスクをもたらす可能性がある。
近年,LLMの品質属性 (QA) を, 逆入力テキストを生成することによって検証している。
しかし、既存の研究はLLMにおけるQAとタスクのカバレッジを制限しており、拡張が困難である。
さらに、これらの研究は、アプローチの有効性を評価するために、1つの評価基準であるアタック成功率(ASR)しか使用していない。
llms(metal)フレームワークを分析するためのメタモルフィックテストを提案し,メタモルフィックテスト(mt)技術を適用してこれらの問題に対処する。
このアプローチは、モジュール化された評価指標として機能するメタモルフィックリレーショナル(MR)を定義することにより、LCMの品質の体系的なテストを容易にする。
METALフレームワークは、様々なQAやタスクをカバーするテンプレートから数百のMRを自動的に生成できる。
さらに,ASR法をテキストのセマンティックな性質に統合し,MRの有効性を正確に評価する新しい指標を導入した。
3つのLLMを用いて実施した実験により,METALフレームワークが一次LLMタスクのQAを効果的に評価し,LLMの品質リスクを明らかにすることを確認した。
さらに,新たに提案する指標は,各タスクの最適mrsを導出し,mrs生成に最も効果的な方法を提案する。
関連論文リスト
- Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - MILE: A Mutation Testing Framework of In-Context Learning Systems [5.419884861365132]
ICLシステムにおけるテストデータの品質と有効性を特徴付けるための突然変異試験フレームワークを提案する。
まず、ICLの実証に特化しているいくつかの突然変異演算子と、ICLテストセットに対応する突然変異スコアを提案する。
総合的な実験により、ICLテストスイートの信頼性と品質を評価する上で、我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-09-07T13:51:42Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。
既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models [29.202758753639078]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の限界について検討する。
本稿では,モデルの性能をより正確に反映できるMCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。