論文の概要: SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge
- arxiv url: http://arxiv.org/abs/2509.07968v1
- Date: Tue, 09 Sep 2025 17:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.431858
- Title: SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge
- Title(参考訳): SimpleQA Verified:パラメトリック知識を測定するための信頼性の高いファクチュアリティベンチマーク
- Authors: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das,
- Abstract要約: OpenAIのSimpleQAに基づいて,Large Language Model (LLM) の短文事実性を評価するための1000プロンプトベンチマークであるSimpleQA Verifiedを導入する。
OpenAIのベンチマークでは、ノイズや不正なラベル、トピックバイアス、質問の冗長性など、重要な制限に対処している。
この新しいベンチマークでは、Gemini 2.5 Proは最先端のF1スコア55.6を達成し、他のフロンティアモデルを上回っている。
- 参考スコア(独自算出の注目度): 7.655956608192742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
- Abstract(参考訳): OpenAIのSimpleQAに基づいて,Large Language Model (LLM) の短文事実性を評価するための1000プロンプトベンチマークであるSimpleQA Verifiedを導入する。
OpenAIのベンチマークでは、ノイズや不正なラベル、トピックバイアス、質問の冗長性など、重要な制限に対処している。
SimpleQA Verifiedは、オートラッタープロンプトの改善とともに、より信頼性が高く困難な評価セットを生成するために、重複解消、トピックバランス、ソース調整を含む厳密な多段階フィルタリングプロセスによって作成された。
この新しいベンチマークでは、Gemini 2.5 Proは55.6の最先端のF1スコアを達成し、GPT-5を含む他のフロンティアモデルを上回っている。
この研究は、パラメトリックモデル事実性の真の進歩を追跡し、幻覚を軽減するために、研究コミュニティに高忠実度ツールを提供する。
ベンチマークデータセット、評価コード、およびリーダーボードは、https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.comで入手できる。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance [0.562479170374811]
Per-IMage Overlap(PIMO)は、AUROCとAUPROの欠点に対処する新しいメトリクスである。
画像ごとのリコールの測定は、計算を単純化し、ノイズの多いアノテーションに対してより堅牢である。
実験の結果,PIMOは実用的優位性があり,性能の見識に乏しいことがわかった。
論文 参考訳(メタデータ) (2024-01-03T21:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。