論文の概要: How to Choose a Threshold for an Evaluation Metric for Large Language Models
- arxiv url: http://arxiv.org/abs/2412.12148v1
- Date: Tue, 10 Dec 2024 21:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-22 07:36:58.630781
- Title: How to Choose a Threshold for an Evaluation Metric for Large Language Models
- Title(参考訳): 大規模言語モデルの評価基準に対する閾値の選択方法
- Authors: Bhaskarjit Sarmah, Mingshu Li, Jingrao Lyu, Sebastian Frank, Nathalia Castellanos, Stefano Pasquali, Dhagash Mehta,
- Abstract要約: 本稿では,与えられた大規模言語モデル(LLM)評価指標のしきい値を選択するためのステップバイステップのレシピを提案する。
次に,得られたLLM評価基準のしきい値を決定するための,具体的かつ統計的に厳密な手順を提案する。
- 参考スコア(独自算出の注目度): 0.9423257767158634
- License:
- Abstract: To ensure and monitor large language models (LLMs) reliably, various evaluation metrics have been proposed in the literature. However, there is little research on prescribing a methodology to identify a robust threshold on these metrics even though there are many serious implications of an incorrect choice of the thresholds during deployment of the LLMs. Translating the traditional model risk management (MRM) guidelines within regulated industries such as the financial industry, we propose a step-by-step recipe for picking a threshold for a given LLM evaluation metric. We emphasize that such a methodology should start with identifying the risks of the LLM application under consideration and risk tolerance of the stakeholders. We then propose concrete and statistically rigorous procedures to determine a threshold for the given LLM evaluation metric using available ground-truth data. As a concrete example to demonstrate the proposed methodology at work, we employ it on the Faithfulness metric, as implemented in various publicly available libraries, using the publicly available HaluBench dataset. We also lay a foundation for creating systematic approaches to select thresholds, not only for LLMs but for any GenAI applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の信頼性を確保するため,文献で様々な評価指標が提案されている。
しかし, LLM の展開中に, しきい値の誤った選択に重大な意味があるにもかかわらず, これらの指標の堅牢なしきい値を特定する手法を規定する研究はほとんどない。
金融業界などの規制産業における従来型モデルリスクマネジメント(MRM)ガイドラインを翻訳し、所定のLCM評価基準のしきい値を選択するためのステップバイステップのレシピを提案する。
このような方法論は、利害関係者のリスク寛容や検討中のLLMアプリケーションのリスクを特定することから始めるべきだと強調する。
次に,得られたLLM評価基準のしきい値を決定するための,具体的かつ統計的に厳密な手順を提案する。
提案手法を実演する具体例として,公開されたHaluBenchデータセットを用いて,さまざまな公開ライブラリに実装されたFithfulnessメトリックを用いて,提案手法を実演する。
また、LLMだけでなく、あらゆるGenAIアプリケーションに対して、しきい値を選択するための体系的なアプローチを作成するための基盤も設けています。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - LLM-CI: Assessing Contextual Integrity Norms in Language Models [1.1715858161748576]
大規模言語モデル(LLM)は、社会的嗜好や規範を意図せずに符号化することができる。
これは、プロンプトの感度が$$$$小であることから特に困難である。
LLM-CIは、符号化された規範を評価するための最初のオープンソースフレームワークである。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
本稿では,大規模言語モデルにおけるバイアスと公平性リスクを評価するための実践者のための技術ガイドを提供する。
この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。