論文の概要: GIM: Evaluating models via tasks that integrate multiple cognitive domains
- arxiv url: http://arxiv.org/abs/2605.18663v1
- Date: Mon, 18 May 2026 17:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.121327
- Title: GIM: Evaluating models via tasks that integrate multiple cognitive domains
- Title(参考訳): GIM:複数の認知領域を統合したタスクによるモデル評価
- Authors: Rohit Patel, Alexandre Rezende, Steven McClain,
- Abstract要約: Grounded Integration Measureは、820のオリジナルの問題のベンチマークである。
それぞれの問題は、オリジナルの専門家による作曲である。
バランスのとれた公民分離は、汚染診断を内蔵する。
- 参考スコア(独自算出の注目度): 42.01371688303606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM benchmarks saturate, the evaluation community has pursued two strategies to increase difficulty: escalating knowledge demands (GPQA, HLE) or removing knowledge entirely in favor of abstract reasoning (ARC-AGI). The first conflates memorization with capability; the second divorces reasoning from the practical contexts in which it matters. We take a different approach. The Grounded Integration Measure (GIM) is a benchmark of 820 original problems (615 public, 205 private) where difficulty comes from integration; individual problems require coordinating multiple cognitive operations (constraint satisfaction, state tracking, epistemic vigilance, audience calibration) over broadly accessible knowledge, so that reasoning stays grounded in realistic tasks without being gated on specialized expertise. Each problem is an original expert-authored composition, majority with rubric-decomposed scoring (median 6 independently judged criteria). A balanced public--private split provides built-in contamination diagnostic. We calibrate a continuous response 2-parameter logistic (2PL) IRT model over >200k prompt-response pairs across 28 models, producing robust ability estimates that correctly order test-configurations even when raw accuracy is distorted by errors or missing data, addressing a common challenge in benchmark reporting. Using this framework, we present a comprehensive leaderboard spanning 22 models and 47 test-configurations (unique model, thinking-level pairs), and conduct what is to our knowledge the most extensive published study of how test-time compute trades off against model capability on a fixed benchmark: 11 models swept across 35 test-configurations. We observe that within-family configuration choices, such as thinking budget and quantization, matter as much as model selection. We release the evaluation framework, calibrated IRT parameters, and all public problems.
- Abstract(参考訳): LLMベンチマークが飽和するにつれて、評価コミュニティは、知識要求(GPQA、HLE)をエスカレートするか、抽象的推論(ARC-AGI)に完全に賛成する知識を取り除くという2つの戦略を追求してきた。
第1は記憶と能力を融合させ、第2は、それが重要な実践的な文脈から引き離す。
私たちは別のアプローチを取る。
接地統合尺度(英語: Grounded Integration Measure, GIM)は、統合が困難である820の元の問題(パブリック、615のプライベート、205のプライベート)のベンチマークである。個々の問題は複数の認知操作(制約満足度、状態追跡、エピステミック・警戒、オーディエンス・キャリブレーション)を広くアクセス可能な知識で調整する必要があるため、推論は専門知識に縛られることなく現実的なタスクに基礎をおくことができる。
それぞれの問題は、ルーリック分解されたスコア(中間6は独立に判断された基準)のオリジナルの専門家による構成である。
バランスの取れたパブリック・プライベート・スプリットは汚染診断を内蔵している。
我々は,28モデルにまたがる200k以上のプロンプト応答ペアに対して,連続応答2パラメータロジスティック(2PL)IRTモデルを校正する。
このフレームワークを用いて、22のモデルと47のテスト構成(一意モデル、思考レベルペア)にまたがる包括的なリーダーボードを提示し、35のテスト構成にまたがる11のモデルにおいて、35のテスト構成にまたがる11のモデルにおいて、テスト時の計算能力とモデル能力とのトレードオフに関する最も広範な研究を行う。
我々は、予算や量子化といった家庭内構成の選択がモデル選択と同じくらい重要であることを観察する。
評価フレームワーク、IRTパラメータの校正、およびすべての公開問題をリリースします。
関連論文リスト
- From 0-Order Selection to 2-Order Judgment: Combinatorial Hardening Exposes Compositional Failures in Frontier LLMs [4.478347601177043]
複数選択推論ベンチマークは、進行するモデルからの迅速な飽和とデータ汚染という2つの課題に直面している。
ここでは、0階選択を2階論理判断に決定的に変換する形式的なフレームワークであるLogiHardを紹介する。
論文 参考訳(メタデータ) (2026-05-08T05:33:58Z) - PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies [16.537126902822127]
PRISMM-Benchは、科学論文において、実際のレビュアーがフラッグした不整合に基づいた最初のベンチマークである。
不整合同定、治療、ペアマッチングという3つのタスクを設計し、不整合の検出、修正、推論を行うモデルの能力を評価する。
我々は、大きなオープンウェイトモデル(GLM-4.5V 106B、InternVL3 78B)やプロプライエタリモデル(Gemini 2.5 Pro、GPT-5)を含む21のLMMをベンチマークした。
論文 参考訳(メタデータ) (2025-10-18T13:46:26Z) - CMT-Benchmark: A Benchmark for Condensed Matter Theory Built by Expert Researchers [11.307995773498975]
CMT-Benchmarkは、縮合理論(CMT)を研究者のレベルでカバーする50の問題のデータセットである。
最高のモデルであるGPT5は問題の30%を解き、平均17モデルの平均は11.4$%である。
このベンチマークは、有能なAI研究アシスタントと家庭教師に向けた開発をガイドするものだと考えています。
論文 参考訳(メタデータ) (2025-10-06T18:00:55Z) - Beyond Overall Accuracy: A Psychometric Deep Dive into the Topic-Specific Medical Capabilities of 80 Large Language Models [6.362188639024662]
項目応答理論(IRT)に基づく厳密な評価フレームワークであるtextscMedIRT を紹介する。
80の多種多様な言語モデル (LLMs) から, バランスのとれた1,100のUSMLE準拠のベンチマークで, 新たな回答を期待して収集した。
LLMの潜在モデル能力は質問の難易度や識別と共同で推定し、精度のみよりも安定でニュアンスの高い性能ランキングを得る。
論文 参考訳(メタデータ) (2025-09-29T02:06:13Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。