Fugu-MT 論文翻訳(概要): Statistical multi-metric evaluation and visualization of LLM system predictive performance

論文の概要: Statistical multi-metric evaluation and visualization of LLM system predictive performance

arxiv url: http://arxiv.org/abs/2501.18243v1
Date: Thu, 30 Jan 2025 10:21:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.108303
Title: Statistical multi-metric evaluation and visualization of LLM system predictive performance
Title（参考訳）: LLMシステム予測性能の統計的マルチメトリック評価と可視化
Authors: Samuel Ackerman, Eitan Farchi, Orna Raz, Assaf Toledo,
Abstract要約: 生成的あるいは識別的大言語モデル(LLM)に基づくシステムの評価は、しばしば複雑な多次元問題である。正確な統計的テストを自動的に実行し、メトリクスやデータセット間で統計結果を適切に集計し、結果を視覚化するフレームワークを提案する。
参考スコア（独自算出の注目度）: 2.429790972808522
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The evaluation of generative or discriminative large language model (LLM)-based systems is often a complex multi-dimensional problem. Typically, a set of system configuration alternatives are evaluated on one or more benchmark datasets, each with one or more evaluation metrics, which may differ between datasets. We often want to evaluate -- with a statistical measure of significance -- whether systems perform differently either on a given dataset according to a single metric, on aggregate across metrics on a dataset, or across datasets. Such evaluations can be done to support decision-making, such as deciding whether a particular system component change (e.g., choice of LLM or hyperparameter values) significantly improves performance over the current system configuration, or, more generally, whether a fixed set of system configurations (e.g., a leaderboard list) have significantly different performances according to metrics of interest. We present a framework implementation that automatically performs the correct statistical tests, properly aggregates the statistical results across metrics and datasets (a nontrivial task), and can visualize the results. The framework is demonstrated on the multi-lingual code generation benchmark CrossCodeEval, for several state-of-the-art LLMs.
Abstract（参考訳）: 生成的あるいは識別的大言語モデル(LLM)に基づくシステムの評価は、しばしば複雑な多次元問題である。通常、システム構成の代替案のセットは、1つ以上のベンチマークデータセットで評価され、それぞれが1つ以上の評価指標を持ち、データセット間で異なる可能性がある。システムは、特定のデータセットに対して、単一のメトリックに従って、データセット上のメトリクスをまたいで、あるいはデータセット間で、異なる方法で実行するかどうかを、統計的に評価したいとよく思っています。例えば、特定のシステムコンポーネントの変更(例えば、LLMまたはハイパーパラメータ値の選択)が、現在のシステム構成よりもパフォーマンスを著しく改善するか、あるいはより一般的には、固定されたシステム構成(例えば、リーダーボードリスト)が、興味のある指標に応じて著しく異なるパフォーマンスを持つかを判断するなどである。本稿では,正確な統計的テストを自動的に実行し,メトリクスやデータセット(非自明なタスク)に統計結果を適切に集約し,結果を可視化するフレームワークの実装を提案する。このフレームワークは多言語コード生成ベンチマークであるCrossCodeEvalでデモされている。

関連論文リスト

Large Language Models are Demonstration Pre-Selectors for Themselves [57.101804269100185]
大規模言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、トレーニングデータ全体から数ショットのデモを選択することで、強力な数ショットのパフォーマンスを提供する。 FEw yet Essential Demonstration prE-selectoRは、デモの代表的なサブセットを特定する新しい事前選択フレームワークである。 FEwでもEssential Demonstration prE-selectoRは、パフォーマンスを維持しながら、トレーニングデータのサイズを20%以上削減できる。
論文参考訳（メタデータ） (2025-06-06T12:29:03Z)
Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy [52.261323452286554]
本稿では,評価指標の局所的メートル法精度を比較することによって,文脈的メタ評価手法を提案する。翻訳,音声認識,ランキングタスクを通じて,局所的計量精度が絶対値と相対的有効性の両方で異なることを示す。
論文参考訳（メタデータ） (2025-03-25T16:42:25Z)
Larger or Smaller Reward Margins to Select Preferences for Alignment? [47.11487070429289]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。モデルが持つ現在の暗黙の報酬マージンと目標の明示的な報酬マージンとのギャップを定量化するアライメントポテンシャル計量を導入する。実験結果から,この測定値から選択したデータによるトレーニングはアライメント性能を継続的に向上させることが示された。
論文参考訳（メタデータ） (2025-02-25T06:43:24Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Beyond Models! Explainable Data Valuation and Metric Adaption for Recommendation [10.964035199849125]
現在の手法では、高品質なデータと低品質なデータとを区別するためにデータバリュエーションを採用している。本稿では,任意の要求に合わせたデータ利用効率を向上させるための,説明可能な多用途フレームワークDVRを提案する。筆者らのフレームワークは,NDCGの代表的な指標として,既存の手法よりも最大34.7%改善されている。
論文参考訳（メタデータ） (2025-02-12T12:01:08Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文参考訳（メタデータ） (2022-02-08T11:44:20Z)
Measuring Disparate Outcomes of Content Recommendation Algorithms with Distributional Inequality Metrics [5.74271110290378]
我々は,経済学,分布不平等指標,およびTwitterのアルゴリズム・タイムラインにおけるコンテンツ露出の差異を測定する能力から,一連の指標を評価した。これらのメトリクスを用いて、ユーザ間の歪んだ結果に強く寄与するコンテンツ提案アルゴリズムを特定できることを示す。
論文参考訳（メタデータ） (2022-02-03T14:41:39Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
Group Heterogeneity Assessment for Multilevel Models [68.95633278540274]
多くのデータセットは固有のマルチレベル構造を含む。この構造を考慮に入れることは、そのようなデータ上で行われた統計分析の正確性と校正にとって重要である。本稿では,データ内のグループ化変数のレベルの違いを効率的に評価するフレキシブルなフレームワークを提案する。
論文参考訳（メタデータ） (2020-05-06T12:42:04Z)
StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。 StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文参考訳（メタデータ） (2020-05-04T15:43:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。