論文の概要: SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge
- arxiv url: http://arxiv.org/abs/2509.07968v1
- Date: Tue, 09 Sep 2025 17:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.431858
- Title: SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge
- Title(参考訳): SimpleQA Verified:パラメトリック知識を測定するための信頼性の高いファクチュアリティベンチマーク
- Authors: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das,
- Abstract要約: OpenAIのSimpleQAに基づいて,Large Language Model (LLM) の短文事実性を評価するための1000プロンプトベンチマークであるSimpleQA Verifiedを導入する。
OpenAIのベンチマークでは、ノイズや不正なラベル、トピックバイアス、質問の冗長性など、重要な制限に対処している。
この新しいベンチマークでは、Gemini 2.5 Proは最先端のF1スコア55.6を達成し、他のフロンティアモデルを上回っている。
- 参考スコア(独自算出の注目度): 7.655956608192742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
- Abstract(参考訳): OpenAIのSimpleQAに基づいて,Large Language Model (LLM) の短文事実性を評価するための1000プロンプトベンチマークであるSimpleQA Verifiedを導入する。
OpenAIのベンチマークでは、ノイズや不正なラベル、トピックバイアス、質問の冗長性など、重要な制限に対処している。
SimpleQA Verifiedは、オートラッタープロンプトの改善とともに、より信頼性が高く困難な評価セットを生成するために、重複解消、トピックバランス、ソース調整を含む厳密な多段階フィルタリングプロセスによって作成された。
この新しいベンチマークでは、Gemini 2.5 Proは55.6の最先端のF1スコアを達成し、GPT-5を含む他のフロンティアモデルを上回っている。
この研究は、パラメトリックモデル事実性の真の進歩を追跡し、幻覚を軽減するために、研究コミュニティに高忠実度ツールを提供する。
ベンチマークデータセット、評価コード、およびリーダーボードは、https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.comで入手できる。
関連論文リスト
- Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - Learning More from Less: Unlocking Internal Representations for Benchmark Compression [37.69575776639016]
異種隠蔽状態を統一潜在空間に整列させて代表コアセットを構成するREPCOREを導入する。
5つのベンチマークと200以上のモデルの実験は、ランキングの相関と推定精度において、出力ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-31T13:11:39Z) - UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits [43.59555184340113]
マルチツールチェーンをエンド・ツー・エンドのモデルと統一された検証後のステージで置き換える軽量なデータパイプラインを導入する。
スケーラブルな品質管理のために、7Bのデュアルタスクエキスパートモデル textbfQwen-Verify をトレーニングし、効率的な故障検出と命令再カプセル化を行う。
このパイプラインは、さまざまな基本的な複雑な編集タスクにまたがる10Mスケールのデータセットである textbfUnicEdit-10M を生成する。
論文 参考訳(メタデータ) (2025-12-01T17:45:44Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning [6.282781900938977]
複雑な多機能理解と細粒度実行推論のための新しいベンチマークであるSTEPWISE-CODEX-Bench(SX-Bench)を提案する。
SX-Benchは非常に差別的であり、最先端のOpenAI-O3でさえハード推論タスクでは78.7%の精度しか達成していない。
論文 参考訳(メタデータ) (2025-08-07T09:28:43Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering [28.045285777736876]
2つの重要な特徴を持つマルチモーダルなファクト検索ベンチマークであるVisualSimpleQAを紹介する。
視覚的・言語的モダリティにおけるLVLMの合理化・分離評価を可能にする。
15個のLVLMの実験では、GPT-4oのような最先端のモデルでさえ、わずか60%以上の精度しか達成していない。
論文 参考訳(メタデータ) (2025-03-09T07:25:32Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance [0.562479170374811]
Per-IMage Overlap(PIMO)は、AUROCとAUPROの欠点に対処する新しいメトリクスである。
画像ごとのリコールの測定は、計算を単純化し、ノイズの多いアノテーションに対してより堅牢である。
実験の結果,PIMOは実用的優位性があり,性能の見識に乏しいことがわかった。
論文 参考訳(メタデータ) (2024-01-03T21:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。