論文の概要: Risk Management for Mitigating Benchmark Failure Modes: BenchRisk
- arxiv url: http://arxiv.org/abs/2510.21460v1
- Date: Fri, 24 Oct 2025 13:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 15:45:42.335796
- Title: Risk Management for Mitigating Benchmark Failure Modes: BenchRisk
- Title(参考訳): ベンチマークの失敗モードを緩和するためのリスク管理 - BenchRisk氏の講演より
- Authors: Sean McGregor, Victor Lu, Vassil Tashev, Armstrong Foundjem, Aishwarya Ramasethu, Sadegh AlMahdi Kazemi Zarkouei, Chris Knotz, Kongtao Chen, Alicia Parrish, Anka Reuel, Heather Frase,
- Abstract要約: この研究は26の人気のあるベンチマークを反復分析し、57の障害モードと196の対策戦略を特定した。
緩和は失敗の可能性や重大さを低減し、"ベンチマークリスク"を評価するための枠組みを提供する。
- 参考スコア(独自算出の注目度): 7.869587516646358
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language model (LLM) benchmarks inform LLM use decisions (e.g., "is this LLM safe to deploy for my use case and context?"). However, benchmarks may be rendered unreliable by various failure modes that impact benchmark bias, variance, coverage, or people's capacity to understand benchmark evidence. Using the National Institute of Standards and Technology's risk management process as a foundation, this research iteratively analyzed 26 popular benchmarks, identifying 57 potential failure modes and 196 corresponding mitigation strategies. The mitigations reduce failure likelihood and/or severity, providing a frame for evaluating "benchmark risk," which is scored to provide a metaevaluation benchmark: BenchRisk. Higher scores indicate that benchmark users are less likely to reach an incorrect or unsupported conclusion about an LLM. All 26 scored benchmarks present significant risk within one or more of the five scored dimensions (comprehensiveness, intelligibility, consistency, correctness, and longevity), which points to important open research directions for the field of LLM benchmarking. The BenchRisk workflow allows for comparison between benchmarks; as an open-source tool, it also facilitates the identification and sharing of risks and their mitigations.
- Abstract(参考訳): 大規模言語モデル (LLM) ベンチマークは LLM の使用判断を通知する(例: "この LLM は私のユースケースとコンテキストにデプロイしても安全か?
しかし、ベンチマークは、ベンチマークのバイアス、ばらつき、カバレッジ、あるいはベンチマークのエビデンスを理解する人の能力に影響を与える様々な障害モードによって、信頼性が低下する可能性がある。
国立標準技術研究所のリスク管理プロセスを基礎として、この研究は26の人気のあるベンチマークを反復分析し、57の障害モードと196の緩和戦略を特定した。
この緩和によって障害の可能性を低減し、"ベンチマークリスク(benchmark risk)"を評価するためのフレームを提供する。
高いスコアは、ベンチマーク利用者がLSMに関する誤ったまたは否定的な結論に達する可能性が低いことを示している。
26のベンチマークは5つの評価された次元のうち1つ以上の大きなリスク(包括性、知性、一貫性、正確性、長寿)を示しており、LLMベンチマークの分野における重要な研究の方向性を示している。
BenchRiskワークフローは、ベンチマークの比較を可能にする。オープンソースツールとして、リスクと軽減の識別と共有を容易にする。
関連論文リスト
- FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models [7.221774553388335]
バイアスを誘発するために構築されたプロンプトに露出しても、大きな言語モデルが公平性を維持することができるかどうかをテストするための新しいベンチマークを導入する。
我々は、潜在的なバイアスを公平性評価に増幅するプロンプトを統合する。
これは安全性と公正性を保証するために、より厳格な評価ベンチマークの必要性を強調している。
論文 参考訳(メタデータ) (2025-03-25T10:48:33Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - BenchmarkCards: Standardized Documentation for Large Language Model Benchmarks [23.263430784766026]
大規模言語モデル(LLM)は多様なタスクを処理できる強力なツールである。
利用可能な多くのオプションを考えると、適切なベンチマークを見つけることは難しい。
直感的で検証可能なドキュメントフレームワークである textttBenchmarkCards を紹介します。
論文 参考訳(メタデータ) (2024-10-16T19:09:02Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。