論文の概要: STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples
- arxiv url: http://arxiv.org/abs/2508.12096v2
- Date: Wed, 20 Aug 2025 09:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 12:38:45.404077
- Title: STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples
- Title(参考訳): STEM: 構造遷移サンプルによるLCMの高効率相対能力評価
- Authors: Haiquan Hu, Jiazhi Jiang, Shiyou Xu, Ruhan Zeng, Tian Wang,
- Abstract要約: 大規模言語モデル(LLM)の評価は、モデル機能が急速に進歩するにつれて、ますます困難になっている。
軽量かつ解釈可能な評価フレームワークとして textbfStructured textbfTransition textbfEvaluation textbfMethod (STEM) を提案する。
- 参考スコア(独自算出の注目度): 3.41981716024098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large language models (LLMs) has become increasingly challenging as model capabilities advance rapidly. While recent models often achieve higher scores on standard benchmarks, these improvements do not consistently reflect enhanced real-world reasoning capabilities. Moreover, widespread overfitting to public benchmarks and the high computational cost of full evaluations have made it both expensive and less effective to distinguish meaningful differences between models. To address these challenges, we propose the \textbf{S}tructured \textbf{T}ransition \textbf{E}valuation \textbf{M}ethod (STEM), a lightweight and interpretable evaluation framework for efficiently estimating the relative capabilities of LLMs. STEM identifies \textit{significant transition samples} (STS) by analyzing consistent performance transitions among LLMs of the same architecture but varying parameter scales. These samples enable STEM to effectively estimate the capability position of an unknown model. Qwen3 model family is applied to construct the STS pool on six diverse and representative benchmarks. To assess generalizability. Experimental results indicate that STEM reliably captures performance trends, aligns with ground-truth rankings of model capability. These findings highlight STEM as a practical and scalable method for fine-grained, architecture-agnostic evaluation of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価は、モデル機能が急速に進歩するにつれて、ますます困難になっている。
最近のモデルは、しばしば標準ベンチマークでより高いスコアを得るが、これらの改善は、拡張された現実世界の推論能力を一貫して反映していない。
さらに、公開ベンチマークへの広範囲なオーバーフィッティングと完全な評価の計算コストにより、モデル間の有意義な差異を区別するコストと効果が低くなった。
これらの課題に対処するために, LLMの相対的能力を効率的に推定するための軽量かつ解釈可能な評価フレームワークである, \textbf{S}tructured \textbf{T}ransition \textbf{E}valuation \textbf{M}ethod (STEM)を提案する。
STEMは、同じアーキテクチャのLLM間の一貫した性能遷移を解析し、パラメータスケールを変化させることにより、 \textit{significant transition sample} (STS) を識別する。
これらのサンプルにより、STEMは未知のモデルの能力位置を効果的に推定することができる。
Qwen3モデルファミリは、STSプールを6つの多種多様な代表ベンチマークで構築するために適用される。
一般化可能性を評価する。
実験結果から,STEMは性能の傾向を確実に把握し,モデル能力の基幹的ランキングと一致していることがわかった。
これらの結果から, STEMはLLMの粒度, アーキテクチャに依存しない評価のための実用的, スケーラブルな手法であることがわかった。
関連論文リスト
- Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文 参考訳(メタデータ) (2025-06-13T08:04:56Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。