論文の概要: LLMORPH: Automated Metamorphic Testing of Large Language Models
- arxiv url: http://arxiv.org/abs/2603.23611v1
- Date: Tue, 24 Mar 2026 18:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.973294
- Title: LLMORPH: Automated Metamorphic Testing of Large Language Models
- Title(参考訳): LLMORPH: 大規模言語モデルのメタモルフィック自動テスト
- Authors: Steven Cho, Stefano Ruberto, Valerio Terragni,
- Abstract要約: LLMORPHは大規模言語モデル(LLM)に特化した自動テストツールである。
MTはメタモルフィックリレーショナル(MR)を使用してソーステスト入力からフォローアップインプットを生成し、高価なラベル付きデータを必要としないモデル出力の不整合の検出を可能にする。
GPT-4, LLAMA3, HERMES 2 の 3 つの最先端 LLM を試験し, NLP ベンチマークで36 MR を適用した。
- 参考スコア(独自算出の注目度): 2.2302915692528367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated testing is essential for evaluating and improving the reliability of Large Language Models (LLMs), yet the lack of automated oracles for verifying output correctness remains a key challenge. We present LLMORPH, an automated testing tool specifically designed for LLMs performing NLP tasks, which leverages Metamorphic Testing (MT) to uncover faulty behaviors without relying on human-labeled data. MT uses Metamorphic Relations (MRs) to generate follow-up inputs from source test input, enabling detection of inconsistencies in model outputs without the need of expensive labelled data. LLMORPH is aimed at researchers and developers who want to evaluate the robustness of LLM-based NLP systems. In this paper, we detail the design, implementation, and practical usage of LLMORPH, demonstrating how it can be easily extended to any LLM, NLP task, and set of MRs. In our evaluation, we applied 36 MRs across four NLP benchmarks, testing three state-of-the-art LLMs: GPT-4, LLAMA3, and HERMES 2. This produced over 561,000 test executions. Results demonstrate LLMORPH's effectiveness in automatically exposing inconsistencies.
- Abstract(参考訳): 大規模言語モデル(LLM)の信頼性の評価と改善には自動テストが不可欠である。
本研究では,NLPタスクを実行するLLM向けに設計された自動テストツールであるLLMORPHについて述べる。
MTはメタモルフィックリレーショナル(MR)を使用してソーステスト入力からフォローアップインプットを生成し、高価なラベル付きデータを必要としないモデル出力の不整合の検出を可能にする。
LLMORPHは、LLMベースのNLPシステムの堅牢性を評価したい研究者や開発者を対象としている。
本稿では, LLMORPHの設計, 実装, 実用化について詳述し, LLM, NLPタスク, MRに容易に拡張できることを示し, 評価では, 4つのNLPベンチマークに36個のMRを適用し, 3つの最先端LLM(GPT-4, LLAMA3, HERMES 2)を試験した。
これにより561,000以上のテスト実行が実現した。
その結果,LLMORPHが自動的に不整合を露呈する効果が示された。
関連論文リスト
- Metamorphic Testing of Large Language Models for Natural Language Processing [2.2302915692528367]
近年,大規模言語モデル (LLM) を用いて自然言語処理 (NLP) タスクが普及している。
これに対する障害のひとつは、ラベル付きデータセットの可用性が限られていることだ。
メタモルフィックテスト(MT)は、このオラクル問題を緩和する一般的なテスト手法である。
論文 参考訳(メタデータ) (2025-11-03T22:48:19Z) - Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.327835928133535]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。
実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。
LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文 参考訳(メタデータ) (2024-10-10T01:14:58Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。
本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems
in LLM Augmented Generation [15.382745718541063]
本稿では,LLM拡張生成システムにおいて,偽ベクトルマッチングを識別するフレームワークであるMeTMaPを提案する。
MeTMaPは意味論的に類似したテキストは一致すべきであり、異種テキストは一致すべきではないという考えに基づいている。
我々は,29の埋め込みモデルと7つの距離メトリクスを含む203個のベクトルマッチング構成に対するMeTMaPの評価を行った。
論文 参考訳(メタデータ) (2024-02-22T12:13:35Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。