論文の概要: Benchmark Illusion: Disagreement among LLMs and Its Scientific Consequences
- arxiv url: http://arxiv.org/abs/2602.11898v1
- Date: Thu, 12 Feb 2026 12:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.814998
- Title: Benchmark Illusion: Disagreement among LLMs and Its Scientific Consequences
- Title(参考訳): ベンチマークIllusion:LLMと科学的結果の相違
- Authors: Eddie Yang, Dashun Wang,
- Abstract要約: 大規模言語モデル (LLM) の精度は16~66%であり, 最上位のフロンティアモデルでは16~38%である。
これらの相違は、異なるLLMに対して異なる誤差プロファイルを示す。
このようなモデルが科学的データアノテーションや推論に使用される場合、その隠れた不一致は研究結果に伝播する。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks underpin how progress in large language models (LLMs) is measured and trusted. Yet our analyses reveal that apparent convergence in benchmark accuracy can conceal deep epistemic divergence. Using two major reasoning benchmarks - MMLU-Pro and GPQA - we show that LLMs achieving comparable accuracy still disagree on 16-66% of items, and 16-38% among top-performing frontier models. These discrepancies suggest distinct error profiles for different LLMs. When such models are used for scientific data annotation and inference, their hidden disagreements propagate into research results: in re-analyses of published studies in education and political science, switching the annotation model can change estimated treatment effects by more than 80%, and in some cases reverses their sign. Together, these findings illustrate a benchmark illusion, where equal accuracy may conceal disagreement, with model choice becoming a hidden yet consequential variable for scientific reproducibility.
- Abstract(参考訳): ベンチマークは、大規模言語モデル(LLM)の進捗を計測し、信頼しているかを示す。
しかし, ベンチマーク精度の明らかな収束は, 深部てんかんの発散を隠蔽する可能性が示唆された。
MMLU-ProとGPQAの2つの主要な推論ベンチマークを用いて、LLMの精度は16~66%、最高性能フロンティアモデルでは16~38%とまだ一致していないことを示した。
これらの相違は、異なるLLMに対して異なる誤差プロファイルを示す。
このようなモデルが科学的データアノテーションや推論に使用されると、それらの隠れた不一致が研究結果に伝播する:教育と政治科学における論文の再分析において、アノテーションモデルを切り替えることによって、推定された治療効果が80%以上変化し、場合によってはその兆候が逆転する。
これらの結果は、同じ精度で不一致を隠蔽し、モデル選択が科学的再現性のために隠蔽されながら連続的な変数となるような、ベンチマークの錯覚を示している。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political Information [0.0]
本研究の目的は,大規模言語モデル (LLM) がファクトチェックにどのように用いられるかを評価することである。
我々は5つのLLMの性能を体系的に評価するAI監査手法を用いる。
結果は、特にセンシティブなトピックにおいて、モデルが偽文を識別するのが優れていることを示している。
論文 参考訳(メタデータ) (2025-03-11T13:06:40Z) - Unraveling overoptimism and publication bias in ML-driven science [14.38643099447636]
最近の研究では、機械学習モデルのパフォーマンスが過度に最適化されていることが示唆されている。
本稿では,パラメトリック学習曲線と前述のバイアスを統合することで,観測精度の新たなモデルを提案する。
神経学的条件の分類のメタ分析にモデルを適用し、各領域におけるMLに基づく予測の固有の限界を推定する。
論文 参考訳(メタデータ) (2024-05-23T10:43:20Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。