論文の概要: LeCov: Multi-level Testing Criteria for Large Language Models
- arxiv url: http://arxiv.org/abs/2408.10474v1
- Date: Tue, 20 Aug 2024 01:17:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:34:22.969064
- Title: LeCov: Multi-level Testing Criteria for Large Language Models
- Title(参考訳): LeCov: 大規模言語モデルのマルチレベルテスト基準
- Authors: Xuan Xie, Jiayang Song, Yuheng Huang, Da Song, Fuyuan Zhang, Felix Juefei-Xu, Lei Ma,
- Abstract要約: 大きな言語モデル(LLM)は多くの異なるドメインで広く使われているが、その解釈可能性に限界があるため、それらがどの程度信頼できるかという疑問がある。
最近の研究は、デプロイ前に信頼できない問題を明らかにすることを目的として、LSMのテスト方法の開発を開始した。
この脅威を軽減するために,LLMのマルチレベルテスト基準であるLeCovを提案する。
- 参考スコア(独自算出の注目度): 18.558729220192415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely used in many different domains, but because of their limited interpretability, there are questions about how trustworthy they are in various perspectives, e.g., truthfulness and toxicity. Recent research has started developing testing methods for LLMs, aiming to uncover untrustworthy issues, i.e., defects, before deployment. However, systematic and formalized testing criteria are lacking, which hinders a comprehensive assessment of the extent and adequacy of testing exploration. To mitigate this threat, we propose a set of multi-level testing criteria, LeCov, for LLMs. The criteria consider three crucial LLM internal components, i.e., the attention mechanism, feed-forward neurons, and uncertainty, and contain nine types of testing criteria in total. We apply the criteria in two scenarios: test prioritization and coverage-guided testing. The experiment evaluation, on three models and four datasets, demonstrates the usefulness and effectiveness of LeCov.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの異なるドメインで広く使われているが、その解釈可能性に限界があるため、それらがいかに信頼に値するか、例えば、真実性、毒性といった様々な観点で疑問がある。
最近の研究は、デプロイ前に不確実な問題、すなわち欠陥を明らかにすることを目的として、LSMのテスト方法の開発を開始した。
しかし、体系的で形式化されたテスト基準が欠如しており、テスト探索の程度と妥当性の総合的な評価を妨げている。
この脅威を軽減するために,LLMのマルチレベルテスト基準であるLeCovを提案する。
この基準は、注意機構、フィードフォワードニューロン、不確実性の3つの重要なLCM内部成分を考慮し、合計9種類の試験基準を含む。
テスト優先化とカバレッジ誘導テストの2つのシナリオに基準を適用します。
3つのモデルと4つのデータセットによる実験評価は、LeCovの有用性と有効性を示している。
関連論文リスト
- Position Paper On Diagnostic Uncertainty Estimation from Large Language Models: Next-Word Probability Is Not Pre-test Probability [11.083059670006833]
大規模言語モデル(LLM)は、診断決定支援のために検討されている。
臨床的な意思決定に不可欠な事前検査の確率を推定する能力は依然として限られている。
本研究では,3つの診断タスクに関する電子的健康記録データを用いて,Mistral-7BとLlama3-70Bの2つのLSMを評価した。
論文 参考訳(メタデータ) (2024-11-07T18:39:04Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions [15.350973327319418]
大規模言語モデル(LLM)は、ますます広範囲の日常アプリケーションに統合されている。
このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。
GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70Bをチェーン・オブ・ソート, EmotionPrompting, ExpertPrompting, Sandbagging, Re-Reading prompt Engineering Techniqueでテストした。
論文 参考訳(メタデータ) (2024-09-30T14:00:34Z) - Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks [10.909463767558023]
本稿では,ニューラルアクティベーション機能を利用して,ジェイルブレイク攻撃をリアルタイムに検出するための革新的なアプローチを提案する。
提案手法は,LLMを組み込んだ将来のシステムにおいて,堅牢なリアルタイム検出機能を実現することを約束する。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - TroubleLLM: Align to Red Team Expert [36.05032354083237]
大きな言語モデル(LLM)は、望ましくない安全性の問題を示すのに潜在的に有害である。
安全問題に対する制御可能なテストプロンプトを生成するために,最初のLLMであるTroubleLLMを提案する。
論文 参考訳(メタデータ) (2024-02-28T03:40:46Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。