論文の概要: HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam
- arxiv url: http://arxiv.org/abs/2602.13964v1
- Date: Sun, 15 Feb 2026 02:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.582805
- Title: HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam
- Title(参考訳): HLE-Verified:人文科学最後の成果の体系的検証と構造化
- Authors: Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao,
- Abstract要約: HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
- 参考スコア(独自算出の注目度): 63.84155758655084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified
- Abstract(参考訳): HumanityのLast Exam(HLE)は、挑戦的なマルチドメインの質問に対して、フロンティアの大規模言語モデルを評価するために広く使用されているベンチマークである。
しかし、コミュニティ主導の分析では、HLEには非自明なノイズのある項目が多数含まれており、バイアス評価結果やモデル間比較の歪曲が可能であるという懸念が持ち上がっている。
この課題に対処するために、透明な検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版であるHLE-Verifiedを紹介した。
私たちの構築は、2段階の検証と修正のワークフローに従っており、その結果、認定ベンチマークが作成されます。
ステージIでは、各項目がドメインエキスパートレビューとモデルベースのクロスチェックを通じて問題のバイナリ検証と最終回答を行い、641の検証項目が得られます。
ステージIIでは、オリジナルの評価意図を保った厳格な制約の下で、2つの独立した専門家の修復、モデル支援監査、最終判断により、欠陥のある固定可能な項目が修正され、1,170項目が修正・認定される。
残りの689項目は、明確な不確実性ソースと今後の改良のための専門的タグを備えた文書化された不確実性セットとしてリリースされている。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,HLE-Verifiedの7~10ポイントの平均絶対精度を観測した。
この改善は、元の問題文や/または参照回答が誤って30~40ポイントのゲインを持つ項目で特に顕著である。
さらに, モデル信頼度と問題文や参照回答の誤りの有無を強く関連付け, 修正の有効性を裏付ける分析を行った。
全体として、HLE-Verifiedは、アノテーションノイズを低減し、モデル機能のより忠実な測定を可能にすることで、HLEスタイルの評価を改善している。
https://github.com/SKYLENAGE-AI/HLE-Verified
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Benchmarks Saturate When The Model Gets Smarter Than The Judge [4.599673637363014]
我々は,Omni-MATHデータセットを手動で改訂したバージョンを提案する。
それぞれの問題は、コンパイル可能性、解決可能性、検証可能性を保証するために監査された。
我々は, GPT-5 mini とオリジナルの Omni-Judge を比較し, クリーンおよびタグ付けされた問題サブセットの双方において, 裁判官間の相当な相違を明らかにした。
論文 参考訳(メタデータ) (2026-01-27T12:20:44Z) - When Does Verification Pay Off? A Closer Look at LLMs as Solution Verifiers [11.937771430269201]
本稿では,37大言語モデル(LLM)の体系的研究について述べる。
自己検証と同一家族内および異なる家族間での検証を比較した。
検証者ゲインや偽陽性率尺度などのメトリクスをモデルサイズと後トレーニングで分析し,データセットの妥当性の違いを特徴付ける。
論文 参考訳(メタデータ) (2025-12-02T00:51:14Z) - JELV: A Judge of Edit-Level Validity for Evaluation and Automated Reference Expansion in Grammatical Error Correction [22.662896396339107]
我々は,文法性,忠実性,流布性から補正編集を検証するために,編集レベル妥当性審査官(JELV)を紹介した。
提案するPair-wise Edit-level Validityデータセット(PEVData)をベンチマークとして,JELVは2つの実装を提供する。
JELV を用いて LLM 生成した訂正候補をフィルタリングし,3,692 個のソース文を含むBEA19 の単一参照データセットを拡張した。
論文 参考訳(メタデータ) (2025-11-16T05:58:39Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。