論文の概要: Search-based Selection of Metamorphic Relations for Optimized Robustness Testing of Large Language Models
- arxiv url: http://arxiv.org/abs/2507.05565v1
- Date: Tue, 08 Jul 2025 01:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.465559
- Title: Search-based Selection of Metamorphic Relations for Optimized Robustness Testing of Large Language Models
- Title(参考訳): 大規模言語モデルの最適ロバストネステストのための検索に基づくメタモルフィック関係の選択
- Authors: Sangwon Hyun, Shaukat Ali, M. Ali Babar,
- Abstract要約: 本稿では,メタモルフィック関係群を最適化し,故障検出を最大化し,実行コストを最小化するための探索に基づくアプローチを提案する。
2つの主要言語モデル (LLM) を用いて, 4つの探索アルゴリズムとランダム検索の比較実験を行った。
各種テキスト・テキスト・タスク間でLLMを混同する主な機能を示す頑健性試験のための銀弾頭MRを同定した。
- 参考スコア(独自算出の注目度): 4.278063359062737
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Assessing the trustworthiness of Large Language Models (LLMs), such as robustness, has garnered significant attention. Recently, metamorphic testing that defines Metamorphic Relations (MRs) has been widely applied to evaluate the robustness of LLM executions. However, the MR-based robustness testing still requires a scalable number of MRs, thereby necessitating the optimization of selecting MRs. Most extant LLM testing studies are limited to automatically generating test cases (i.e., MRs) to enhance failure detection. Additionally, most studies only considered a limited test space of single perturbation MRs in their evaluation of LLMs. In contrast, our paper proposes a search-based approach for optimizing the MR groups to maximize failure detection and minimize the LLM execution cost. Moreover, our approach covers the combinatorial perturbations in MRs, facilitating the expansion of test space in the robustness assessment. We have developed a search process and implemented four search algorithms: Single-GA, NSGA-II, SPEA2, and MOEA/D with novel encoding to solve the MR selection problem in the LLM robustness testing. We conducted comparative experiments on the four search algorithms along with a random search, using two major LLMs with primary Text-to-Text tasks. Our statistical and empirical investigation revealed two key findings: (1) the MOEA/D algorithm performed the best in optimizing the MR space for LLM robustness testing, and (2) we identified silver bullet MRs for the LLM robustness testing, which demonstrated dominant capabilities in confusing LLMs across different Text-to-Text tasks. In LLM robustness assessment, our research sheds light on the fundamental problem for optimized testing and provides insights into search-based solutions.
- Abstract(参考訳): 堅牢性などの大規模言語モデル(LLM)の信頼性を評価することは、大きな注目を集めている。
近年, メタモルフィック・リレーショナル(MR)を定義するメタモルフィック・テストが, LLM実行のロバスト性を評価するために広く適用されている。
しかしながら、MRベースのロバストネステストは、スケーラブルな数のMRを必要とするため、MRの選択の最適化が必要であり、既存のLSMテスト研究のほとんどは、障害検出を強化するために自動テストケース(すなわちMR)を生成することに限定されている。
さらに、ほとんどの研究は、LSMの評価において単一の摂動MRの限られたテスト空間しか考慮していない。
一方,本研究では,故障検出の最大化とLLM実行コストの最小化のために,MRグループを最適化するための探索に基づくアプローチを提案する。
さらに、MRの組合せ摂動をカバーし、ロバストネス評価におけるテスト空間の拡大を促進する。
LLMロバストネス試験におけるMR選択問題を解くために,新しい符号化法を用いて,単一GA,NSGA-II,SPEA2,MOEA/Dの4つの探索アルゴリズムを開発した。
テキストとテキストを主タスクとする2つの主要なLLMを用いて,4つの検索アルゴリズムとランダム検索の比較実験を行った。
統計的および実証的な調査の結果,(1)MOEA/DアルゴリズムはLLMのロバストネステストにおけるMR空間の最適化に最善を尽くし,(2)LLMのロバストネステストにおける銀弾頭MRを同定した。
LLMのロバスト性評価では、最適化テストの基本的な問題に光を当て、検索ベースのソリューションに関する洞察を提供する。
関連論文リスト
- LLM-First Search: Self-Guided Exploration of the Solution Space [29.780554400938335]
大規模言語モデル(LLM)は、テスト時間計算の増加による推論と計画の大幅な改善を示している。
我々は,新しいTextitLLM Self-Guided Search法である textbfLLM-First Search (LFS) を提案する。
論文 参考訳(メタデータ) (2025-06-05T16:27:49Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Large Language Model Assisted Adversarial Robustness Neural Architecture Search [14.122460940115069]
本稿では,敵対的ニューラルアーキテクチャ探索(ARNAS)のためのLLMO(LLMO)を提案する。
標準CRISPEフレームワーク(キャパシティとロール、インサイト、ステートメント、パーソナリティ、実験)を用いてプロンプトを設計する。
我々はプロンプトを反復的に洗練し、Geminiからの応答はARNASインスタンスの解として適応される。
論文 参考訳(メタデータ) (2024-06-08T10:45:07Z) - METAL: Metamorphic Testing Framework for Analyzing Large-Language Model
Qualities [4.493507573183107]
大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。
近年,LLMの品質属性(QA)は,逆入力テキストを生成することで検証されている。
本稿では,これらの問題に対処するメタモルフィック・テスト・フォー・アナライズ・LLM(METAL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T01:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。