論文の概要: Mapping Overlaps in Benchmarks through Perplexity in the Wild
- arxiv url: http://arxiv.org/abs/2509.23488v2
- Date: Wed, 01 Oct 2025 00:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.78254
- Title: Mapping Overlaps in Benchmarks through Perplexity in the Wild
- Title(参考訳): ベンチマークにおけるオーバーラップのマッピング - ワイルドのパープレキシティを通じて
- Authors: Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans,
- Abstract要約: 我々は,大規模言語モデル(LLM)ベンチマークとその意味的な重複を特徴付けるために,キャパシティ親しみやすさのシグネチャを開発する。
本分析は,ベンチマーク質問の意味的類似性とモデル性能の相関性の両方に関して,シグネチャを定式化したものである。
最終的には、論理、数学、言語、命令追従、世界モデリングにまたがるクロスファンクショナルオーバーラップを識別し、コーディングが最重複の少ないドメインとして現れます。
- 参考スコア(独自算出の注目度): 8.321258152814986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop signatures of capacity familiarity to characterize large language model (LLM) benchmarks and their meaningful overlaps. Benchmark signatures probe the capacity required for benchmark performance. We formally define them as a set of salient tokens drawn from in-the-wild, naturally authored corpora, where LLM token perplexity, reflecting more or less pre-training exposure, becomes highly predictive of LLM benchmark performance. Through a large-scale meta-evaluation, we extract benchmark signatures via stepwise forward selection with linear regressions across 32 LLMs and 88 benchmarks spanning diverse knowledge, coding, logic, instruction following, math, language, reasoning, and world modeling. Our analysis situates signatures in relation to both the semantic similarity of benchmark questions and the correlation of model performance. While performance overlaps are universally high and semantic overlaps remain confined to a narrow mid-range, benchmark signatures prove highly informative in capturing variation, overlap, and divergence. We observe overlap in knowledge and reasoning subtasks, whereas multilingual and cultural benchmarks exhibit less similarity, even compared to cross-task overlap. Notably, performance-level results are strongly influenced by benchmark-orthogonal factors such as question format, highlighting limitations in LLM generalization, the conflation of performance with ability, and issues inherent in current mainstream benchmark agreement studies. Benchmark signatures, however, remain robust to such effects. Ultimately, we identify cross-functional overlaps across logic, math, language, instruction following, and world modeling, with coding emerging as the least overlapping domain. Together, these findings provide mechanistic insights into benchmark validity and LLM sensitivities, and sketch the underlying landscape of interconnected LLM capabilities.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)ベンチマークとその意味的な重複を特徴付けるために,キャパシティ親しみやすさのシグネチャを開発する。
ベンチマークシグネチャは、ベンチマークのパフォーマンスに必要なキャパシティを探索する。
そこでは,LLM のトークンパープレクシリティを多かれ少なかれ学習前の露出を反映し,LLM ベンチマークの性能を高い精度で予測する。
大規模メタ評価により,32 LLM と88 LLM にまたがる線形回帰によるベンチマークシグネチャを段階的に抽出し,多様な知識,コーディング,論理,命令追従,数学,言語,推論,世界モデリングにまたがるベンチマークシグネチャを抽出する。
本分析は,ベンチマーク質問の意味的類似性とモデル性能の相関性の両方に関して,シグネチャを定式化したものである。
パフォーマンスオーバーラップは普遍的に高く、セマンティックオーバーラップは狭い中間範囲に限られるが、ベンチマークシグネチャは、ばらつき、重複、ばらつきを捉える上で非常に有益である。
知識と推論のサブタスクの重複を観察する一方、多言語と文化のベンチマークは、クロスタスクのオーバーラップと比較しても、類似度が低い。
特に、性能レベルの結果は、質問形式、LLMの一般化における制限の強調、性能と能力の融合、そして現在の主流のベンチマーク合意研究に固有の問題など、ベンチマークの直交的要因に強く影響されている。
しかしベンチマークシグネチャは、そのような影響に対して堅牢である。
最終的には、論理、数学、言語、命令追従、世界モデリングにまたがるクロスファンクショナルオーバーラップを識別し、コーディングが最重複の少ないドメインとして現れます。
これらの知見は、ベンチマークの妥当性とLLMの感度に関する力学的な洞察を与え、相互接続されたLLM機能の基礎となる風景をスケッチする。
関連論文リスト
- Re-Evaluating Code LLM Benchmarks Under Semantic Mutation [8.58692613099365]
本稿では,コードベンチマークの迅速感度を調査するための実証的研究について述べる。
本稿では,プロンプトテンプレートのセマンティクスと構造を両立させる手法として,プロンプトテンプレートを改良する汎用フレームワークを提案する。
この結果から, 急激な変化であっても, 性能が著しく変化することが示唆された。
論文 参考訳(メタデータ) (2025-06-20T15:30:36Z) - Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文 参考訳(メタデータ) (2025-06-13T08:04:56Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。