論文の概要: Metamorphic Testing of Large Language Models for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2511.02108v1
- Date: Mon, 03 Nov 2025 22:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.699619
- Title: Metamorphic Testing of Large Language Models for Natural Language Processing
- Title(参考訳): 自然言語処理のための大規模言語モデルのメタモルフィックテスト
- Authors: Steven Cho, Stefano Ruberto, Valerio Terragni,
- Abstract要約: 近年,大規模言語モデル (LLM) を用いて自然言語処理 (NLP) タスクが普及している。
これに対する障害のひとつは、ラベル付きデータセットの可用性が限られていることだ。
メタモルフィックテスト(MT)は、このオラクル問題を緩和する一般的なテスト手法である。
- 参考スコア(独自算出の注目度): 2.2302915692528367
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using large language models (LLMs) to perform natural language processing (NLP) tasks has become increasingly pervasive in recent times. The versatile nature of LLMs makes them applicable to a wide range of such tasks. While the performance of recent LLMs is generally outstanding, several studies have shown that they can often produce incorrect results. Automatically identifying these faulty behaviors is extremely useful for improving the effectiveness of LLMs. One obstacle to this is the limited availability of labeled datasets, which necessitates an oracle to determine the correctness of LLM behaviors. Metamorphic testing (MT) is a popular testing approach that alleviates this oracle problem. At the core of MT are metamorphic relations (MRs), which define relationships between the outputs of related inputs. MT can expose faulty behaviors without the need for explicit oracles (e.g., labeled datasets). This paper presents the most comprehensive study of MT for LLMs to date. We conducted a literature review and collected 191 MRs for NLP tasks. We implemented a representative subset (36 MRs) to conduct a series of experiments with three popular LLMs, running approximately 560,000 metamorphic tests. The results shed light on the capabilities and opportunities of MT for LLMs, as well as its limitations.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) を用いて自然言語処理 (NLP) タスクが普及している。
LLMの汎用性は、様々なタスクに適用できる。
最近のLLMの性能は概して際立ったものであるが、いくつかの研究では、しばしば誤った結果が得られることが示されている。
これらの欠陥を自動同定することはLLMの有効性を向上させるのに非常に有用である。
これに対する障害のひとつはラベル付きデータセットの可用性が限られていることだ。
メタモルフィックテスト(MT)は、このオラクル問題を緩和する一般的なテスト手法である。
MTの中核は変成関係(MR)であり、関連する入力の出力間の関係を定義する。
MTは明示的なオラクル(ラベル付きデータセットなど)を必要とせずに、障害行動を公開することができる。
本稿では,LLMのMTに関する最も包括的な研究について述べる。
文献レビューを行い,NLPタスクに対する191個のMRを収集した。
代表的サブセット(36MRs)を実装し,約56万のメタモルフィックテストを実行し,3つのLLMを用いた一連の実験を行った。
その結果、LLMにおけるMTの能力と機会、およびその限界が明らかになった。
関連論文リスト
- LLMs Get Lost In Multi-Turn Conversation [44.26588510453331]
LLM(Large Language Models)は、対話型インタフェースである。
LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
論文 参考訳(メタデータ) (2025-05-09T15:21:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.418844515095035]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
不正確なトークン化は、LLMが入力を正確に理解するのを妨げている臨界点である。
我々は, LLMのトークン化に挑戦するために, 様々なオープンソースLLMの語彙をベースとして, $textbfADT (Adrial dataset for Tokenizer)$という逆データセットを構築した。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Validating Large Language Models with ReLM [11.552979853457117]
大規模言語モデル(LLM)は、自然に聞こえるテキストを生成する能力があるとして、高く評価されている。
データ記憶、バイアス、不適切な言語など、LLMのネガティブな影響に関する懸念が高まっている。
本稿では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。
論文 参考訳(メタデータ) (2022-11-21T21:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。