Fugu-MT 論文翻訳(概要): Navigating the Sea of LLM Evaluation: Investigating Bias in Toxicity Benchmarks

論文の概要: Navigating the Sea of LLM Evaluation: Investigating Bias in Toxicity Benchmarks

arxiv url: http://arxiv.org/abs/2605.10639v1
Date: Mon, 11 May 2026 14:27:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.894895
Title: Navigating the Sea of LLM Evaluation: Investigating Bias in Toxicity Benchmarks
Title（参考訳）: LLM評価の海をナビゲートする - 毒性ベンチマークにおけるバイアスの調査
Authors: Regina Gugg, Selina Niederländer, Andreas Stöckl, Martin Flechl,
Abstract要約: 本研究は、確立されたベンチマーク設定の堅牢性を調査し、本質的なバイアスを測定する方法を検討する。本実験では,評価設定が変更された場合のベンチマーク動作に有意な差がみられた。モデル固有の不安定性を観察し、より堅牢で包括的な安全性評価フレームワークの必要性を明確に示す。
参考スコア（独自算出の注目度）: 0.36748639131154315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid adoption of LLMs in both research and industry highlights the challenges of deploying them safely and reveals a gap in the systematic evaluation of toxicity benchmarks. As organizations increasingly rely on these benchmarks to certify models for customer-facing applications and automated moderation, unrecognized evaluation biases could lead to the deployment of vulnerable or unsafe systems. This work investigates the robustness of established benchmarking setups and examines how to measure currently neglected intrinsic biases, such as those related to model choice, metrics, and task types. Our experiments uncover significant discrepancies in benchmark behaviors when evaluation setups are altered. Specifically, shifting the task from text completion to summarization increases the tendency of benchmarks to flag content as harmful. Additionally, certain benchmarks fail to maintain consistent behavior when the input data domain is changed. Furthermore, we observe model-specific instabilities, demonstrating a clear need for more robust and comprehensive safety evaluation frameworks.
Abstract（参考訳）: 研究と産業の両方におけるLSMの急速な採用は、それらを安全にデプロイする上での課題を強調し、毒性ベンチマークの体系的評価におけるギャップを明らかにしている。企業が顧客向けアプリケーションと自動モデレーションのモデル認定にこれらのベンチマークをますます頼りにしているため、認識されていない評価バイアスが脆弱性のあるシステムや安全でないシステムのデプロイにつながる可能性がある。本研究では、確立されたベンチマーク設定の堅牢性を調査し、モデル選択やメトリクス、タスクタイプなど、現在無視されている固有のバイアスを測定する方法を検討する。本実験では,評価設定が変更された場合のベンチマーク動作に有意な差がみられた。具体的には、タスクをテキスト補完から要約に移行することで、ベンチマークが有害であるとフラグ付けする傾向が高まる。さらに、入力データドメインが変更されたとき、特定のベンチマークは一貫性のある動作を維持することができない。さらに、モデル固有の不安定性を観察し、より堅牢で包括的な安全性評価フレームワークの必要性を明確に示す。

関連論文リスト

Silicon Bureaucracy and AI Test-Oriented Education: Contamination Sensitivity and Score Confidence in LLM Benchmarks [43.45152572188735]
本稿では,言語モデルにおける汚染感度とスコア信頼度を解析するための監査フレームワークを提案する。ノイズ条件下では, 広範に不均一なベースラインゲインが得られる。これらの結果は、類似のベンチマークスコアが、かなり異なる信頼レベルを持つ可能性があることを示唆している。
論文参考訳（メタデータ） (2026-03-23T07:03:07Z)
DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。 DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文参考訳（メタデータ） (2026-02-21T19:14:31Z)
The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文参考訳（メタデータ） (2026-02-03T08:18:37Z)
Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness [6.071703608560761]
大規模言語モデル(LLM)は、現実のデプロイメントコンテキストから制御された評価設定への変更を認識すると、大きな振る舞いの変化を示すことが多い。この不一致は、ベンチマークパフォーマンスがモデルの真の安全性と誠実さを正確に反映していない可能性があるため、AIアライメントにとって重要な課題となる。線形プローブを用いて連続的な尺度のプロンプトを"test-like"から"deploy-like"にスコアする手法を提案する。
論文参考訳（メタデータ） (2025-08-30T19:03:14Z)
Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。 AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文参考訳（メタデータ） (2025-05-28T20:22:43Z)
PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。これは、安全なデプロイメントを保証する上で、大きな課題となる。 PredictaBoardは,新しいベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-02-20T10:52:38Z)
SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。