Fugu-MT 論文翻訳(概要): Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

論文の概要: Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

arxiv url: http://arxiv.org/abs/2603.28769v1
Date: Sun, 18 Jan 2026 04:34:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 02:36:13.124351
Title: Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation
Title（参考訳）: Spark-LLM-Eval: 統計的に厳格な大規模言語モデル評価のための分散フレームワーク
Authors: Subhadip Mitra,
Abstract要約: 本稿では,Apache Spark上に構築された分散評価フレームワークであるSpark-LLM-Evalを紹介する。フレームワークとすべての評価コードはオープンソースとして利用可能である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating large language models at scale remains a practical bottleneck for many organizations. While existing evaluation frameworks work well for thousands of examples, they struggle when datasets grow to hundreds of thousands or millions of samples. This scale is common when assessing model behavior across diverse domains or conducting comprehensive regression testing. We present Spark-LLM-Eval, a distributed evaluation framework built natively on Apache Spark. The system treats evaluation as a data-parallel problem, partitioningexamplesacrossexecutorsandaggregatingresultswithproperstatistical accounting. Beyond raw throughput, we emphasize statistical rigor: every reported metric includes bootstrap confidence intervals, and model comparisons come with appropriate significance tests (paired t-tests, McNemar's test, or Wilcoxon signed-rank, depending on the metric type). The framework also addresses the cost problem inherent in LLM evaluation through content-addressable response caching backed by Delta Lake, which allows iterating on metric definitions without re-running inference. We describe the system architecture, the statistical methodology, and report benchmark results showing linear scaling with cluster size. The framework and all evaluation code are available as open source.
Abstract（参考訳）: 大規模で大規模な言語モデルを評価することは、多くの組織にとって、依然として現実的なボトルネックです。既存の評価フレームワークは数千の例でうまく機能するが、データセットが数十万から数百万のサンプルに成長するのに苦労する。このスケールは、さまざまなドメインにわたるモデルの振る舞いを評価したり、包括的な回帰テストを行う場合に一般的です。我々はApache Sparkをネイティブに構築した分散評価フレームワークであるSpark-LLM-Evalを紹介した。本システムは、データ並列問題として評価を扱い、統計学的会計を伴わないパーティショニングexamplesacrossexecutorsandaggregatingresultsを扱います。報告されたメトリックにはブートストラップの信頼区間が含まれており、モデル比較には適切な意味テスト(ペアテスト、McNemarのテスト、またはWilcoxonの署名ランク)が伴う。このフレームワークは、Delta Lakeが支援するコンテンツ調整可能なレスポンスキャッシュを通じてLCM評価に固有のコスト問題にも対処する。本稿では,システムアーキテクチャ,統計手法,およびクラスタサイズによる線形スケーリングを示すベンチマーク結果について述べる。フレームワークとすべての評価コードはオープンソースとして利用可能である。

関連論文リスト

KG-EDAS: A Meta-Metric Framework for Evaluating Knowledge Graph Completion Models [0.0]
知識グラフ(KG)を評価する上での大きな課題は、複数のデータセットとメトリクスのパフォーマンスを比較することだ。我々は,平均解からの距離に基づくKG評価を提案し,マルチメトリック・マルチデータセットのパフォーマンスを統一的なランキングに組み込む。 EDASは、より情報のあるモデル選択をサポートし、データセット間の評価において公平性を促進するグローバルな視点を提供する。
論文参考訳（メタデータ） (2025-08-21T08:37:35Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
AllMetrics: A Unified Python Library for Standardized Metric Evaluation and Robust Data Validation in Machine Learning [2.325084918639609]
さまざまな機械学習タスクのメトリクス評価を標準化するために設計された,オープンソースの統一PythonライブラリであるAllMetricsを紹介した。このライブラリは、すべてのユースケースをカバーするパラメータを通して、マルチクラスタスクのクラス固有のレポートを実装している。医療、金融、不動産といった分野のさまざまなデータセットを私たちのライブラリに適用し、Python、Matlab、Rコンポーネントと比較しました。
論文参考訳（メタデータ） (2025-05-21T18:36:05Z)
SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。 SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文参考訳（メタデータ） (2025-02-28T19:27:29Z)
How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation [1.7812428873698403]
本稿では,要約統計をモニタリングする統合フレームワークと統合したエンティティ中心のデータラベリング手法を提案する。これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
論文参考訳（メタデータ） (2024-04-08T15:53:29Z)
Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文参考訳（メタデータ） (2024-03-07T03:24:34Z)
Distributed Collapsed Gibbs Sampler for Dirichlet Process Mixture Models in Federated Learning [0.22499166814992444]
本稿では,DPMM (DisCGS) のための分散マルコフ連鎖モンテカルロ (MCMC) 推論手法を提案する。我々のアプローチでは、崩壊したGibbsサンプルラーを使用し、独立マシンと異種マシンの分散データを扱うように設計されています。例えば、100Kのデータポイントのデータセットでは、中央集権的なアルゴリズムは100回のイテレーションを完了するのに約12時間かかります。
論文参考訳（メタデータ） (2023-12-18T13:16:18Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。 Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。 LASSO を用いて Model-to-Match フレームワークを運用する。
論文参考訳（メタデータ） (2023-02-23T00:43:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。