論文の概要: Toward a unified framework for data-efficient evaluation of large language models
- arxiv url: http://arxiv.org/abs/2510.04051v1
- Date: Sun, 05 Oct 2025 06:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.42456
- Title: Toward a unified framework for data-efficient evaluation of large language models
- Title(参考訳): 大規模言語モデルのデータ効率評価のための統一的枠組みを目指して
- Authors: Lele Liao, Qile Zhang, Ruofan Wu, Guanhua Fang,
- Abstract要約: LEGO-IRTはデータ効率の大きな言語モデル評価のための統一的で柔軟なフレームワークです。
バイナリと継続的評価のメトリクスの両方をサポートする。
LEGO-IRTは,全体の評価項目のわずか3%の費用で,安定した能力推定を実現していることを示す。
- 参考スコア(独自算出の注目度): 12.922829524961813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) on comprehensive benchmarks is a cornerstone of their development, yet it's often computationally and financially prohibitive. While Item Response Theory (IRT) offers a promising path toward data-efficient evaluation by disentangling model capability from item difficulty, existing IRT-based methods are hampered by significant limitations. They are typically restricted to binary correctness metrics, failing to natively handle the continuous scores used in generative tasks, and they operate on single benchmarks, ignoring valuable structural knowledge like correlations across different metrics or benchmarks. To overcome these challenges, we introduce LEGO-IRT, a unified and flexible framework for data-efficient LLM evaluation. LEGO-IRT's novel design natively supports both binary and continuous evaluation metrics. Moreover, it introduces a factorized architecture to explicitly model and leverage structural knowledge, decomposing model ability estimates into a general component and structure-specific (e.g., per-metric or per-benchmark) components. Through extensive experiments involving $70$ LLMs across $5$ benchmarks, we show that LEGO-IRT achieves stable capability estimates using just $3\%$ of the total evaluation items. We demonstrate that incorporating structural knowledge reduces estimation error by up to $10\%$ and reveal that the latent abilities estimated by our framework may align more closely with human preferences.
- Abstract(参考訳): 包括的なベンチマークで大きな言語モデル(LLM)を評価することは、彼らの開発の基礎であるが、しばしば計算的かつ財政的に禁止される。
アイテム応答理論(IRT)は、アイテムの難易度からモデル能力を引き離すことによって、データ効率評価への有望な道を提供する一方で、既存のIRTベースの手法は、重大な制限によって妨げられている。
通常、それらはバイナリの正当性メトリクスに制限され、生成タスクで使用される連続的なスコアをネイティブに処理できず、単一のベンチマークで動作し、異なるメトリクスやベンチマーク間の相関のような貴重な構造的知識を無視します。
これらの課題を克服するために、データ効率のLLM評価のための統一的で柔軟なフレームワークLEGO-IRTを紹介します。
LEGO-IRTの斬新な設計は、バイナリと継続的評価の両方をネイティブにサポートしています。
さらに、構造的知識を明示的にモデル化し、活用するための分解されたアーキテクチャを導入し、モデル能力の推定値を一般的なコンポーネントに分解し、構造固有のコンポーネント(例えば、メトリックごとまたはベンチマークごと)に分解する。
5ドルのベンチマークで70ドルのLLMを含む広範な実験を通して、LEGO-IRTは、全体の評価項目のたった3.5%の価格で、安定した能力推定を実現していることを示す。
構造的知識を取り入れることで推定誤差を最大10\%削減し,我々のフレームワークが推定する潜在能力が人間の嗜好とより密に一致していることを明らかにする。
関連論文リスト
- StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。
既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。
インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:31Z) - DSR-Bench: Evaluating the Structural Reasoning Abilities of LLMs via Data Structures [20.596558700597644]
大規模言語モデル(LLM)は、データ操作を基本とする現実世界のタスクに対して、ますます多くデプロイされている。
中心となる要件は、構造的推論(つまり、データ関係を理解し、推論する)を実行する能力である。
データ構造を通してLLMの構造的推論能力を評価する新しいベンチマークであるDSR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory [44.886213907135435]
Pseudo-Siamese Network for Item Response Theory (PSN-IRT) を提案する。
PSN-IRTは、アイテムの特性とモデル能力の正確かつ信頼性の高い推定に利用することができる。
論文 参考訳(メタデータ) (2025-05-21T03:24:11Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。