論文の概要: CORE: Comprehensive Ontological Relation Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.06446v1
- Date: Fri, 06 Feb 2026 07:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.276006
- Title: CORE: Comprehensive Ontological Relation Evaluation for Large Language Models
- Title(参考訳): CORE:大規模言語モデルの包括的オントロジー関係評価
- Authors: Satyam Dwivedi, Sanjukta Ghosh, Shivam Dwivedi, Nishi Kumari, Anil Thakur, Anurag Purushottam, Deepak Alok, Praveen Gatla, Manjuprasad B, Bipasha Patgiri,
- Abstract要約: 大規模言語モデル(LLM)は多くの推論ベンチマークでよく機能するが、既存の評価では意味のある意味的関係と真の非関連性を区別する能力を評価することは滅多にない。
74の分野にまたがる225万質問のデータセットであるCORE(Comprehensive Ontological Relation Evaluation, 総合オントロジー関係評価)を紹介する。
1000人以上の参加者のヒトのベースラインは92.6%の精度(関係のないペアの95.1%)を達成する
- 参考スコア(独自算出の注目度): 0.9668495520241466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) perform well on many reasoning benchmarks, yet existing evaluations rarely assess their ability to distinguish between meaningful semantic relations and genuine unrelatedness. We introduce CORE (Comprehensive Ontological Relation Evaluation), a dataset of 225K multiple-choice questions spanning 74 disciplines, together with a general-domain open-source benchmark of 203 rigorously validated questions (Cohen's Kappa = 1.0) covering 24 semantic relation types with equal representation of unrelated pairs. A human baseline from 1,000+ participants achieves 92.6% accuracy (95.1% on unrelated pairs). In contrast, 29 state-of-the-art LLMs achieve 48.25-70.9% overall accuracy, with near-ceiling performance on related pairs (86.5-100%) but severe degradation on unrelated pairs (0-41.35%), despite assigning similar confidence (92-94%). Expected Calibration Error increases 2-4x on unrelated pairs, and a mean semantic collapse rate of 37.6% indicates systematic generation of spurious relations. On the CORE 225K MCQs dataset, accuracy further drops to approximately 2%, highlighting substantial challenges in domain-specific semantic reasoning. We identify unrelatedness reasoning as a critical, under-evaluated frontier for LLM evaluation and safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの推論ベンチマークでよく機能するが、既存の評価では意味のある意味的関係と真の非関連性を区別する能力を評価することは滅多にない。
CORE(Comprehensive Ontological Relation Evaluation, 総合オントロジー関係評価)は、74の分野にまたがる225Kの複数質問のデータセットであり、203の厳密に検証された質問(Cohen's Kappa = 1.0)の一般領域のオープンソースベンチマークである。
1000人以上の参加者によるヒトのベースラインは92.6%の精度(無関係なペアでは95.1%)を達成する。
対照的に29の最先端LCMは48.25-70.9%の精度を達成し、関連するペア(86.5-100%)ではほぼシーリング性能を達成したが、類似の信頼性(92-94%)では非関連ペア(0-41.35%)では著しく低下した。
期待される校正誤差は、無関係なペアに対して2~4倍増加し、平均的な意味的崩壊率37.6%は、急激な関係の体系的な生成を示す。
CORE 225K MCQsデータセットでは、精度が約2%に低下し、ドメイン固有のセマンティック推論における重大な課題が浮き彫りになっている。
我々は,LLMの評価と安全性において,非関連性推論を重要かつ過小評価されたフロンティアとみなす。
関連論文リスト
- Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - Beyond Mimicry: Preference Coherence in LLMs [0.19116784879310025]
大規模言語モデルが真の嗜好構造を示すかどうかを,AI固有のトレードオフに対する応答をテストすることによって検討する。
23の組合せ(47.9%)は、シナリオ強度と選択パターンの統計的に有意な関係を示した。
5つの組み合わせ(10.4%)だけが適応的またはしきい値に基づく行動を通じて有意義な嗜好コヒーレンスを示す。
不安定な遷移(45.8%)と刺激特異的感性は、現在のAIシステムが統一された嗜好構造を欠いていることを示唆している。
論文 参考訳(メタデータ) (2025-11-17T17:41:48Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Multi-head attention debiasing and contrastive learning for mitigating Dataset Artifacts in Natural Language Inference [0.0]
自然言語推論モデルのための構造的デバイアス化手法を開発した。
提案手法は, 誤差率を14.19%から10.42%に下げると同時に, バイアスのない例では高い性能を維持する。
論文 参考訳(メタデータ) (2024-12-16T17:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。