論文の概要: Do Repetitions Matter? Strengthening Reliability in LLM Evaluations
- arxiv url: http://arxiv.org/abs/2509.24086v1
- Date: Sun, 28 Sep 2025 21:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.624388
- Title: Do Repetitions Matter? Strengthening Reliability in LLM Evaluations
- Title(参考訳): 繰り返しは重要か? : LLM評価における信頼性の向上
- Authors: Miguel Angel Alvarado Gonzalez, Michelle Bruno Hernandez, Miguel Angel Peñaloza Perez, Bruno Lopez Orozco, Jesus Tadeo Cruz Soto, Sandra Malagon,
- Abstract要約: LLMのリーダーボードはシングルランに依存することが多いが、信頼できる結論を得るために何回繰り返しが必要なのかは不明だ。
我々は、AI4Mathベンチマークで8つの最先端モデルを再評価し、設定ごとに3つの独立した実行を実行しました。
- 参考スコア(独自算出の注目度): 0.374750127323442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM leaderboards often rely on single stochastic runs, but how many repetitions are required for reliable conclusions remains unclear. We re-evaluate eight state-of-the-art models on the AI4Math Benchmark with three independent runs per setting. Using mixed-effects logistic regression, domain-level marginal means, rank-instability analysis, and run-to-run reliability, we assessed the value of additional repetitions. Our findings shows that Single-run leaderboards are brittle: 10/12 slices (83\%) invert at least one pairwise rank relative to the three-run majority, despite a zero sign-flip rate for pairwise significance and moderate overall interclass correlation. Averaging runs yields modest SE shrinkage ($\sim$5\% from one to three) but large ranking gains; two runs remove $\sim$83\% of single-run inversions. We provide cost-aware guidance for practitioners: treat evaluation as an experiment, report uncertainty, and use $\geq 2$ repetitions under stochastic decoding. These practices improve robustness while remaining feasible for small teams and help align model comparisons with real-world reliability.
- Abstract(参考訳): LLMのリーダーボードは、しばしば単一の確率的な実行に依存しているが、信頼できる結論を得るために何回繰り返しが必要かは定かではない。
我々は、AI4Mathベンチマークで8つの最先端モデルを再評価し、設定ごとに3つの独立した実行を実行します。
また,ロジスティック回帰,領域レベルの限界平均,ランク-不安定分析,ラン・トゥ・ラン信頼性の混合効果を用いて,追加繰り返しの価値を評価した。
10/12スライス(10/12スライス83\%)は3ランの過半数に対して少なくとも1対のランクを逆転するが、ペアの意義と中等な全体クラス間の相関はゼロである。
Averaging run は、控えめな SE の縮小 (1 から 3 への 5 % ) をもたらすが、大きなランキングゲイン、2 ランは、シングルランのインバージョンを $\sim$83 % 取り除く。
評価を実験として扱い、不確実性を報告し、確率的復号化の下で$\geq 2$を繰り返し使用する。
これらのプラクティスは、小さなチームでも実現可能でありながら堅牢性を改善し、実際の信頼性とモデルの比較を整合させるのに役立つ。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Counterfactual Reward Model Training for Bias Mitigation in Multimodal Reinforcement Learning [0.5204229323525671]
本稿では,マルチモーダル表現学習による因果推論を導入し,非教師付きバイアス耐性報酬信号を提供する。
我々は, フレーミングバイアス, クラス不均衡, 分散ドリフトを示すマルチモーダルフェイク対真のニュースデータセット上で, フレームワークの評価を行った。
その結果、偽ニュースの検出において89.12%の精度を達成し、ベースライン報酬モデルを上回った。
論文 参考訳(メタデータ) (2025-08-27T04:54:33Z) - Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision [20.09181711927194]
PathFinder-PRMは,新しい階層型,誤り認識型識別型PRMである。
PRMBenchでは、PathFinder-PRMが67.7の最先端PRMSコアを新たに達成し、3倍の少ないデータを使用しながら、以前の最高値(65.5)を上回った。
論文 参考訳(メタデータ) (2025-05-26T08:56:36Z) - Classifying Inconsistency in AHP Pairwise Comparison Matrices Using Machine Learning [0.0]
本研究では,三進選好逆転(PR)を利用して,一貫性のより堅牢で解釈可能な評価を行う新しい方法を提案する。
PR法は97%の精度を達成し、CR法(Consistency Ratio, Consistency Ratio)の50%をはるかに上回り、偽陰性率は5.5%に比べてわずか2.6%である。
論文 参考訳(メタデータ) (2025-05-07T14:17:39Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [80.15393178083607]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。