論文の概要: Instance-level Randomization: Toward More Stable LLM Evaluations
- arxiv url: http://arxiv.org/abs/2509.12678v1
- Date: Tue, 16 Sep 2025 05:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.899791
- Title: Instance-level Randomization: Toward More Stable LLM Evaluations
- Title(参考訳): インスタンスレベルのランダム化:より安定したLCM評価に向けて
- Authors: Yiyang Li, Yonghuang Wu, Ying Luo, Liangtai Sun, Zishu Qin, Lin Qiu, Xuezhi Cao, Xunliang Cai,
- Abstract要約: 大規模言語モデル(LLM)の評価は不安定性に悩まされる。
少数ショット例のようなランダムな要因の小さな変化は、スコアの劇的な変動や、モデルランキングさえも引き起こす。
本稿では,モデル比較における分散の低減と公平性を高めるために,インスタンスレベルのランダム化(ILR)手法を提案する。
- 参考スコア(独自算出の注目度): 24.635769915931018
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluations of large language models (LLMs) suffer from instability, where small changes of random factors such as few-shot examples can lead to drastic fluctuations of scores and even model rankings. Moreover, different LLMs can have different preferences for a certain setting of random factors. As a result, using a fixed setting of random factors, which is often adopted as the paradigm of current evaluations, can lead to potential unfair comparisons between LLMs. To mitigate the volatility of evaluations, we first theoretically analyze the sources of variance induced by changes in random factors. Targeting these specific sources, we then propose the instance-level randomization (ILR) method to reduce variance and enhance fairness in model comparisons. Instead of using a fixed setting across the whole benchmark in a single experiment, we randomize all factors that affect evaluation scores for every single instance, run multiple experiments and report the averaged score. Theoretical analyses and empirical results demonstrate that ILR can reduce the variance and unfair comparisons caused by random factors, as well as achieve similar robustness level with less than half computational cost compared with previous methods.
- Abstract(参考訳): 大規模言語モデル (LLM) の評価は不安定性に悩まされ、少数ショット例のようなランダムな要因の小さな変化は、スコアの劇的な変動を引き起こし、モデルランキングさえも引き起こす。
さらに、異なるLLMはランダムな要因の特定の設定に対して異なる好みを持つことができる。
結果として、現在の評価のパラダイムとしてしばしば採用されるランダム因子の固定設定を用いることで、LLM間の潜在的不公平な比較につながる可能性がある。
評価のボラティリティを緩和するために、まずランダムな要因の変化によって引き起こされるばらつきの原因を理論的に分析する。
そこで本研究では, モデル比較において, ばらつきを低減し, 公平性を高めるために, インスタンスレベルのランダム化(ILR)法を提案する。
単一の実験でベンチマーク全体にわたって固定された設定を使用する代わりに、各インスタンスの評価スコアに影響を与えるすべての要因をランダム化し、複数の実験を実行し、平均スコアを報告します。
理論的解析と実証実験により、IRRはランダムな要因によるばらつきや不公平な比較を減らし、従来の手法に比べて計算コストが半分以下で同様のロバスト性レベルを達成できることが示された。
関連論文リスト
- Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores [2.886479348067378]
我々は、大きな言語モデルの能力をテストするために設計されたベンチマークを使用して、基準方向を推論する。
本稿では,ベンチマークスコアの不確かさを定量的に定量化するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:04:28Z) - Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。
選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。
人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文 参考訳(メタデータ) (2024-06-14T17:59:54Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - Mining the Factor Zoo: Estimation of Latent Factor Models with
Sufficient Proxies [29.737081616352913]
我々は2つのアプローチを潜在因子モデル推定にブリッジすることを提案する。
我々は、潜在因子モデルの推定を堅牢で、柔軟で、統計的により正確にする。
ボーナスとして、要素数の増加も認められている。
論文 参考訳(メタデータ) (2022-12-25T03:10:44Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。