Fugu-MT 論文翻訳(概要): METAL: Metamorphic Testing Framework for Analyzing Large-Language Model Qualities

論文の概要: METAL: Metamorphic Testing Framework for Analyzing Large-Language Model Qualities

arxiv url: http://arxiv.org/abs/2312.06056v1
Date: Mon, 11 Dec 2023 01:29:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 17:16:40.082818
Title: METAL: Metamorphic Testing Framework for Analyzing Large-Language Model Qualities
Title（参考訳）: METAL:大規模言語モデル品質分析のためのメタモルフィックテスティングフレームワーク
Authors: Sangwon Hyun, Mingyu Guo, M. Ali Babar
Abstract要約: 大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。近年,LLMの品質属性(QA)は,逆入力テキストを生成することで検証されている。本稿では,これらの問題に対処するメタモルフィック・テスト・フォー・アナライズ・LLM(METAL)フレームワークを提案する。
参考スコア（独自算出の注目度）: 4.493507573183107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-Language Models (LLMs) have shifted the paradigm of natural language data processing. However, their black-boxed and probabilistic characteristics can lead to potential risks in the quality of outputs in diverse LLM applications. Recent studies have tested Quality Attributes (QAs), such as robustness or fairness, of LLMs by generating adversarial input texts. However, existing studies have limited their coverage of QAs and tasks in LLMs and are difficult to extend. Additionally, these studies have only used one evaluation metric, Attack Success Rate (ASR), to assess the effectiveness of their approaches. We propose a MEtamorphic Testing for Analyzing LLMs (METAL) framework to address these issues by applying Metamorphic Testing (MT) techniques. This approach facilitates the systematic testing of LLM qualities by defining Metamorphic Relations (MRs), which serve as modularized evaluation metrics. The METAL framework can automatically generate hundreds of MRs from templates that cover various QAs and tasks. In addition, we introduced novel metrics that integrate the ASR method into the semantic qualities of text to assess the effectiveness of MRs accurately. Through the experiments conducted with three prominent LLMs, we have confirmed that the METAL framework effectively evaluates essential QAs on primary LLM tasks and reveals the quality risks in LLMs. Moreover, the newly proposed metrics can guide the optimal MRs for testing each task and suggest the most effective method for generating MRs.
Abstract（参考訳）: 大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。しかしながら、それらのブラックボックス化と確率的特性は、多様なLCMアプリケーションにおける出力の品質に潜在的なリスクをもたらす可能性がある。近年,LLMの品質属性 (QA) を, 逆入力テキストを生成することによって検証している。しかし、既存の研究はLLMにおけるQAとタスクのカバレッジを制限しており、拡張が困難である。さらに、これらの研究は、アプローチの有効性を評価するために、1つの評価基準であるアタック成功率(ASR)しか使用していない。 llms(metal)フレームワークを分析するためのメタモルフィックテストを提案し,メタモルフィックテスト(mt)技術を適用してこれらの問題に対処する。このアプローチは、モジュール化された評価指標として機能するメタモルフィックリレーショナル(MR)を定義することにより、LCMの品質の体系的なテストを容易にする。 METALフレームワークは、様々なQAやタスクをカバーするテンプレートから数百のMRを自動的に生成できる。さらに,ASR法をテキストのセマンティックな性質に統合し,MRの有効性を正確に評価する新しい指標を導入した。 3つのLLMを用いて実施した実験により,METALフレームワークが一次LLMタスクのQAを効果的に評価し,LLMの品質リスクを明らかにすることを確認した。さらに,新たに提案する指標は,各タスクの最適mrsを導出し,mrs生成に最も効果的な方法を提案する。

関連論文リスト

M-MAD: Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation [12.042804590050089]
多次元マルチエージェント・ディベート(Multidimensional Multi-Agent Debate, M-MAD)は、機械翻訳評価のための体系的LLMベースのマルチエージェントフレームワークである。その結果,M-MAD は(1) MQM 基準を細粒度評価のための異なる評価次元に分解することにより,顕著な進歩を達成できることが示唆された。総合的な実験により、M-MADは既存のLCM-as-a-judge法よりも優れているだけでなく、最先端の参照ベースの自動メトリクスと競合することが示された。
論文参考訳（メタデータ） (2024-12-28T12:11:28Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。 EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文参考訳（メタデータ） (2024-10-10T03:31:16Z)
MILE: A Mutation Testing Framework of In-Context Learning Systems [5.419884861365132]
ICLシステムにおけるテストデータの品質と有効性を特徴付けるための突然変異試験フレームワークを提案する。まず、ICLの実証に特化しているいくつかの突然変異演算子と、ICLテストセットに対応する突然変異スコアを提案する。総合的な実験により、ICLテストスイートの信頼性と品質を評価する上で、我々のフレームワークの有効性を示す。
論文参考訳（メタデータ） (2024-09-07T13:51:42Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文参考訳（メタデータ） (2024-06-13T12:43:40Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文参考訳（メタデータ） (2024-04-14T07:06:12Z)
Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models [29.202758753639078]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の限界について検討する。本稿では,モデルの性能をより正確に反映できるMCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案する。
論文参考訳（メタデータ） (2024-02-02T12:07:00Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。