論文の概要: AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.13029v1
- Date: Mon, 17 Nov 2025 06:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.721424
- Title: AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models
- Title(参考訳): AA-Omniscience:大規模言語モデルにおけるドメイン間知識信頼性の評価
- Authors: Declan Jackson, William Keating, George Cameron, Micah Hill-Smith,
- Abstract要約: AA-Omniscienceは6000の質問に対する事実的リコールと知識のキャリブレーションを測定するために設計されたベンチマークである。
モデルの評価は、事実のリコールを測定する有界メトリック(-100から100)であるOmniscience Indexを測定する。
その結果、フロンティアモデル全体の持続的な事実性とキャリブレーションの弱点が明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing language model evaluations primarily measure general capabilities, yet reliable use of these models across a range of domains demands factual accuracy and recognition of knowledge gaps. We introduce AA-Omniscience, a benchmark designed to measure both factual recall and knowledge calibration across 6,000 questions. Questions are derived from authoritative academic and industry sources, and cover 42 economically relevant topics within six different domains. The evaluation measures a model's Omniscience Index, a bounded metric (-100 to 100) measuring factual recall that jointly penalizes hallucinations and rewards abstention when uncertain, with 0 equating to a model that answers questions correctly as much as it does incorrectly. Among evaluated models, Claude 4.1 Opus attains the highest score (4.8), making it one of only three models to score above zero. These results reveal persistent factuality and calibration weaknesses across frontier models. Performance also varies by domain, with the models from three different research labs leading across the six domains. This performance variability suggests models should be chosen according to the demands of the use case rather than general performance for tasks where knowledge is important.
- Abstract(参考訳): 既存の言語モデル評価は、主に一般的な能力を測定するが、これらのモデルの様々な領域にわたる信頼性の高い使用は、知識ギャップの事実的精度と認識を要求する。
AA-Omniscienceは、6000の質問に対して、事実的リコールと知識の校正の両方を測定するために設計されたベンチマークである。
質問は権威ある学術や産業の情報源から導き出され、6つの異なる領域で42の経済的関連トピックをカバーしている。
評価はモデルのOmniscience Index(100から100)を測るもので、幻覚を共同で罰し、不確実な場合には報酬を棄却する事実的リコール(-100から100)を測定する。
評価されたモデルの中で、クロード4.1オプスは最高点(4.8点)を獲得し、0点を超える3つのモデルのうちの1つとなった。
これらの結果は、フロンティアモデル全体での持続的な事実性とキャリブレーションの弱点を明らかにしている。
パフォーマンスもドメインによって異なり、6つのドメインにまたがる3つの異なる研究所のモデルによって異なる。
この性能変動は、知識が重要であるタスクの一般的なパフォーマンスよりも、ユースケースの要求に応じてモデルを選択するべきであることを示唆している。
関連論文リスト
- Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models [2.1945750784330067]
本研究は17大言語モデル(OpenAI, Google, Anthropic, オープンソース)の要約性能を評価する。
事実整合性、意味的類似性、語彙重なり、人間に似た品質の指標を用いて、7つの多様なデータセットのモデルを評価した。
論文 参考訳(メタデータ) (2025-04-06T16:24:22Z) - Critical Foreign Policy Decisions (CFPD)-Benchmark: Measuring Diplomatic Preferences in Large Language Models [2.11457423143017]
本研究では,7つの基礎モデルのバイアスと嗜好を評価するための新しいベンチマークを提案する。
400の専門的なシナリオを使用して、選択したモデルの結果を分析しました。
すべてのモデルは、ある程度の国固有の偏見を示しており、しばしば、中国とロシアに対するエスカレーションや介入の行動を減らすことを推奨している。
論文 参考訳(メタデータ) (2025-03-08T16:19:13Z) - Comparative Insights from 12 Machine Learning Models in Extracting Economic Ideology from Political Text [0.0]
本研究では、経済イデオロギーの検出において、12の機械学習モデルとモデルバリエーションの能力を体系的に評価する。
この分析は、粒度および集合レベルでのいくつかの生成、微調整、ゼロショットモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-01-16T18:06:22Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Measuring Massive Multitask Chinese Understanding [16.41629318344805]
この試験は、医学、法学、心理学、教育の4つの主要な領域を含む。
ゼロショット設定における最高のパフォーマンスモデルは、最悪のパフォーマンスモデルよりも平均18.6ポイント向上した。
全てのモデルは法域では性能が悪く、高いゼロショット精度は0.239にしか達しなかった。
論文 参考訳(メタデータ) (2023-04-25T16:51:53Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。