論文の概要: Knowledge Index of Noah's Ark
- arxiv url: http://arxiv.org/abs/2606.05104v2
- Date: Thu, 04 Jun 2026 05:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.396619
- Title: Knowledge Index of Noah's Ark
- Title(参考訳): Noah's Arkの知識指標
- Authors: Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang,
- Abstract要約: KINAは,261分野にわたる899項目のベンチマークである。
ボーナス・オン・バートーナメントがFOSDを弱く支配していることを示す。
トップモデルであるGemini-3.1-Pro-Previewは53.17%、Claude-Opus-4.6は49.92%、GPT-5.4は48.55%に達した。
- 参考スコア(独自算出の注目度): 63.143852586221534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability under bounded test budgets. We introduce KINA, an 899-item benchmark across 261 fine-grained disciplines, with two formal results. First, we cast representativeness as a coverage-style objective over expert-elicited anchors and operationalize disciplinary representativeness through a proxy, yielding a (1-1/e) greedy approximation (Proposition 1); the guarantee applies to the proxy, not to population representativeness. Second, we prove a bonus-on-bar tournament weakly FOSD-dominates flat payment in released-review quality, with incentive-compatibility threshold B > Delta C / Delta p_min (Theorem 1). Evaluating 42 models from 13 labs, the top model, Gemini-3.1-Pro-Preview, reaches 53.17%, followed by Claude-Opus-4.6 at 49.92% and GPT-5.4 at 48.55%, leaving substantial headroom below saturation. The full leaderboard shows a tiered structure rather than a smooth total order: a small frontier tier lies above 48%, a dense strong-model tier spans roughly 38-45%, and low-performing models remain only modestly above the 10% chance baseline. Tool augmentation adds up to 5.17 points across the five tool-use evaluations, with gains varying substantially across models. We report bootstrap ranking-stability statistics to make bounded-budget variance explicit and to discourage over-interpretation of adjacent ranks.
- Abstract(参考訳): LLMの知識ベンチマークは3つの問題に直面している: ディシプリナの代表性を運用しないスケーリング駆動設計、遅延コンセンサスを許容するフラットペイメントアノテーション、境界テスト予算下でのランキング不安定性。
KINAは261分野にわたる899項目のベンチマークで,2つの公式な結果を得た。
まず,代用代用代用代用代用代用代用代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入
第2に,FOSD-dominates flat payment in release-review quality, with incentive-compatibility threshold B > Delta C / Delta p_min (Theorem 1)。
トップモデルのジェミニ-3.1-Pro-Previewが53.17%、クロード-オプス-4.6が49.92%、GPT-5.4が48.55%と評価された。
小さなフロンティア層が48%以上、密度の高い強いモデル層が約38-45%、低い性能のモデルが10%の確率ベースラインよりわずかに上回っている。
ツール拡張は5つのツール使用評価で5.17ポイントまで増加し、モデルによって大きく異なる。
本稿では,境界予算分散を明示し,隣接するランクの過度な解釈を阻止するためのブートストラップランキング安定統計を報告する。
関連論文リスト
- Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs [86.49905745865038]
Soohakは64人の数学者によって新たに書かれた439プロブレムのベンチマークである。
データセットは2026年後半に公開され、中間で要求に応じてモデル評価が利用可能になる。
論文 参考訳(メタデータ) (2026-05-09T17:14:22Z) - Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation [0.0]
政策シミュレーションにおいて,大規模言語モデル(LLM)を用いたマルチエージェント検討システムの提案が進んでいる。
評価エージェントは、割り当てられた値の観点に関わらず、同じ選択肢に収束する。
我々は、三段階の審議フレームワークであるAI Councilを提示し、2つの介入をテストするための2つの政策シナリオにわたる120の審議を行う。
論文 参考訳(メタデータ) (2026-04-29T11:47:28Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Order from Chaos: Comparative Study of Ten Leading LLMs on Unstructured Data Categorization [0.0]
本研究では,非構造化テキスト分類に適用された10種類の最先端大規模言語モデル(LLM)の比較評価を行った。
この分析では、8,660人の注釈付きサンプルと同一のゼロショットプロンプトの統一データセットを使用して、すべてのモデルにおける方法論的一貫性を確保した。
その結果,現代LLMは,平均スコアが34%,精度が42%,リコールが45%,F1スコアが41%であった。
論文 参考訳(メタデータ) (2025-10-14T02:15:01Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。