論文の概要: Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks
- arxiv url: http://arxiv.org/abs/2511.04689v1
- Date: Sun, 26 Oct 2025 03:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:30.980798
- Title: Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks
- Title(参考訳): LLM評価のための適応テスト:静的ベンチマークの心理学的代替
- Authors: Peiyu Li, Xiuxiu Tang, Si Chen, Ying Cheng, Ronald Metoyer, Ting Hua, Nitesh V. Chawla,
- Abstract要約: ATLASは大規模言語モデルの適応テストフレームワークである。
フィッシャー情報誘導項目選択によるモデル能力の推定を行う。
測定精度を維持しながら90%の項目削減を実現している。
- 参考スコア(独自算出の注目度): 26.89839484242575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model evaluation requires thousands of benchmark items, making evaluations expensive and slow. Existing methods compute average accuracy across fixed item sets, treating all items equally despite varying quality and informativeness. We present ATLAS an adaptive testing framework using Item Response Theory (IRT) to estimate model ability through Fisher information-guided item selection. Our analysis of five major benchmarks reveals that 3-6% of items exhibit negative discrimination, indicating annotation errors that corrupt static evaluation. ATLAS achieves 90% item reduction while maintaining measurement precision: on HellaSwag (5,608 items), we match full-benchmark estimates using only 42 items with 0.154 MAE. Our framework maintains item exposure rates below 10% and test overlap at 16-27%, compared to static benchmarks where every model sees all items (100% exposure). Among 4,000+ tested models, IRT ranks differ from accuracy ranks: models with the same accuracy get different IRT scores, and 23-31% of all models shift by more than 10 rank positions. Code and calibrated item banks are available at https://github.com/Peiyu-Georgia-Li/ATLAS.git.
- Abstract(参考訳): 大規模な言語モデル評価には数千のベンチマーク項目が必要であるため、評価は高価で遅い。
既存の方法では、固定されたアイテムセットの平均精度を計算し、品質と情報性が異なるにもかかわらず、全てのアイテムを等しく扱う。
我々は,情報誘導項目選択によるモデル能力の推定にIRT(Item Response Theory)を用いた適応型テストフレームワークATLASを提案する。
5つの主要なベンチマークを解析した結果,36%の項目が否定的識別を示し,静的評価を損なうようなアノテーションエラーを示した。
ATLASは測定精度を維持しながら90%の項目削減を実現し,HellaSwag(5,608項目)では42項目と0.154MAEのみを用いて全ベンチマーク推定値に一致した。
私たちのフレームワークは、アイテムの露出率を10%以下に保ち、テストオーバーラップを16~27%としています。
同じ精度のモデルではIRTのスコアが異なり、全モデルの23-31%が10以上のランクでシフトしている。
コードと校正されたアイテムバンクはhttps://github.com/Peiyu-Georgia-Li/ATLAS.gitで入手できる。
関連論文リスト
- Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning in LLMs [19.592385109516268]
大規模言語モデル(LLM)の現在のベンチマークは飽和状態に近づき、トレーニングセットの汚染によってますます損なわれている。
我々は、有名なウィリアム・ローウェル・パットナム数学コンペティションのベンチマークであるPatnam-AXIOMを紹介する。
変更プロトコルは、同じように困難で目に見えないインスタンスの無制限ストリームを生成します。
論文 参考訳(メタデータ) (2025-08-05T17:57:50Z) - Beyond One-Size-Fits-All: Tailored Benchmarks for Efficient Evaluation [19.673388630963807]
本論文では,各対象モデルに合わせてカスタマイズした評価を行うTaloredBenchを提案する。
Global-coresetはまず、ターゲットモデル毎に最も一貫性のあるソースモデルを特定するプローブとして構築される。
拡張性のあるK-Medoidsクラスタリングアルゴリズムが提案され、Global-coresetを各ターゲットモデルに適したNative-coresetに拡張する。
論文 参考訳(メタデータ) (2025-02-19T09:31:50Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。