論文の概要: Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks
- arxiv url: http://arxiv.org/abs/2603.04459v2
- Date: Thu, 12 Mar 2026 11:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.407696
- Title: Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks
- Title(参考訳): ベンチマークのベンチマーク: LLMの安全性ベンチマークにおける影響の解き方とコードリポジトリの品質
- Authors: Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang,
- Abstract要約: 本稿では,LLMの安全性ベンチマークにおける影響(5つの指標に基づく)とコード品質の多次元評価について述べる。
ベンチマーク論文は,非ベンチマーク論文に対する学術的影響(引用数や密度など)に有意な優位性を示すものではない。
著者の優位性は紙の影響と相関するが、著者の優位性も紙の影響もコード品質と有意な相関を示す。
- 参考スコア(独自算出の注目度): 31.87029149284585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of research in LLM safety makes it hard to track all advances. Benchmarks are therefore crucial for capturing key trends and enabling systematic comparisons. Yet, it remains unclear why certain benchmarks gain prominence, and no systematic assessment has been conducted on their academic influence or code quality. This paper fills this gap by presenting the first multi-dimensional evaluation of the influence (based on five metrics) and code quality (based on both automated and human assessment) on LLM safety benchmarks, analyzing 31 benchmarks and 382 non-benchmarks across prompt injection, jailbreak, and hallucination. We find that benchmark papers show no significant advantage in academic influence (e.g., citation count and density) over non-benchmark papers. We uncover a key misalignment: while author prominence correlates with paper influence, neither author prominence nor paper influence shows a significant correlation with code quality. Our results also indicate substantial room for improvement in code and supplementary materials: only 39% of repositories are ready-to-use, 16% include flawless installation guides, and a mere 6% address ethical considerations. Given that the work of prominent researchers tends to attract greater attention, they need to lead the effort in setting higher standards.
- Abstract(参考訳): LLM安全性の研究の急速な成長は、すべての進歩を追跡するのを困難にしている。
したがってベンチマークは重要なトレンドを捉え、体系的な比較を可能にするために重要である。
しかし、なぜ特定のベンチマークが注目されるのかは不明であり、学術的影響やコード品質に関する体系的な評価は行われていない。
本稿は, LLMの安全性ベンチマークに対する影響(5つの指標に基づく)とコード品質(自動評価と人的評価の両方に基づく)の初回多次元評価を行い, 即時注入, 脱獄, 幻覚を含む31のベンチマークと382の非ベンチマークを解析することによって, このギャップを埋めるものである。
ベンチマーク論文は, 学術的影響(引用数, 引用数, 密度)において, 非ベンチマーク論文よりも有意な優位性を示した。
著者の優位性は紙の影響と相関するが、著者の優位性も紙の影響もコード品質と有意な相関を示す。
コードや補充材料の改善の余地は,39%のレポジトリが使用可能であり,16%が欠陥のないインストールガイド,6%が倫理的考慮事項に関するものだ。
著名な研究者の作業が注目を集める傾向にあるため、彼らはより高い基準を設定する努力を先導する必要がある。
関連論文リスト
- LLM4SCREENLIT: Recommendations on Assessing the Performance of Large Language Models for Screening Literature in Systematic Reviews [2.2175470459999636]
我々は、系統的なレビューにおいて、関連する文献を特定するために、Gen-AIツールのパフォーマンスを評価するために伝統的なメトリクスを使用する際の問題を特定する。
主な弱点は、不均衡なデータに対して堅牢で、結果が偶然よりも優れているかどうかを直接示さないメトリクスを使用できないことであった。
ポジティブな面では、研究者や実践者や政策立案者に対する勧告が構築される優れた(評価)プラクティスを抽出する。
論文 参考訳(メタデータ) (2025-11-16T15:04:50Z) - ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-10-12T11:11:20Z) - The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文 参考訳(メタデータ) (2025-01-18T09:51:57Z) - DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。
評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文 参考訳(メタデータ) (2024-12-24T08:53:54Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - The Fault in our Stars: Quality Assessment of Code Generation Benchmarks [0.5137309756089941]
我々は、異なるコード生成モデルの性能を比較するために使用されるベンチマークの中で、プロンプトの品質について、第一種研究を行う。
9つのコード生成ベンチマークから3,566のプロンプトを分析し、その中の品質問題を特定した。
論文 参考訳(メタデータ) (2024-04-15T22:02:58Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。