論文の概要: Are Large Language Models Truly Smarter Than Humans?
- arxiv url: http://arxiv.org/abs/2603.16197v1
- Date: Tue, 17 Mar 2026 07:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.145976
- Title: Are Large Language Models Truly Smarter Than Humans?
- Title(参考訳): 大規模言語モデルは人間よりはるかに賢か?
- Authors: Eshwar Reddy M, Sourav Karmakar,
- Abstract要約: 公開のリーダーボードでは、学術的知識、法律、プログラミングにまたがるベンチマークにおいて、大きな言語モデル(LLM)が人間の専門家を上回ることを示唆している。
本稿では,6つのフロンティアLSMの厳密な汚染監査を形成する3つの相補的な実験について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Public leaderboards increasingly suggest that large language models (LLMs) surpass human experts on benchmarks spanning academic knowledge, law, and programming. Yet most benchmarks are fully public, their questions widely mirrored across the internet, creating systematic risk that models were trained on the very data used to evaluate them. This paper presents three complementary experiments forming a rigorous multi-method contamination audit of six frontier LLMs: GPT-4o, GPT-4o-mini, DeepSeek-R1, DeepSeek-V3, Llama-3.3-70B, and Qwen3-235B. Experiment 1 applies a lexical contamination detection pipeline to 513 MMLU questions across all 57 subjects, finding an overall contamination rate of 13.8% (18.1% in STEM, up to 66.7% in Philosophy) and estimated performance gains of +0.030 to +0.054 accuracy points by category. Experiment 2 applies a paraphrase and indirect-reference diagnostic to 100 MMLU questions, finding accuracy drops by an average of 7.0 percentage points under indirect reference, rising to 19.8 pp in both Law and Ethics. Experiment 3 applies TS-Guessing behavioral probes to all 513 questions and all six models, finding that 72.5% trigger memorization signals far above chance, with DeepSeek-R1 displaying a distributed memorization signature (76.6% partial reconstruction, 0% verbatim recall) that explains its anomalous Experiment 2 profile. All three experiments converge on the same contamination ranking: STEM > Professional > Social Sciences > Humanities.
- Abstract(参考訳): 大衆のリーダーボードは、学術的知識、法律、プログラミングにまたがるベンチマークにおいて、大きな言語モデル(LLM)が人間の専門家を上回ることをますます示唆している。
しかし、ほとんどのベンチマークは完全に公開されており、彼らの質問はインターネット全体で広く反映されており、モデルがそれらの評価に使用されるデータに基づいてトレーニングされたという体系的なリスクを生み出している。
本稿では,GPT-4o,GPT-4o-mini,DeepSeek-R1,DeepSeek-V3,Llama-3.3-70B,Qwen3-235Bの6つのフロンティアLCMの厳密なマルチメタル汚染監査を形成する3つの相補的な実験について述べる。
実験1では、57の被験者すべてに513のMMLU質問に語彙的汚染検出パイプラインを適用し、全体的な汚染率は13.8%(STEMでは18.1%、哲学では66.7%)、性能は+0.030から+0.054と推定されている。
実験2では、100のMMLU質問に対してパラフレーズと間接参照診断を適用し、間接参照で平均7.0ポイントの精度低下を発見し、法と倫理の両方で19.8ppに上昇した。
実験3では、TS-Guessingの行動プローブを513の質問すべてと6つのモデルすべてに適用し、72.5%の暗記信号が偶然よりもはるかに上回っており、DeepSeek-R1は異常なExperiment 2のプロファイルを説明する分散暗記シグネチャ(76.6%の部分再構成、0%の暗記リコール)を表示している。
STEM > 専門家 > 社会科学 > 人文科学 > 人文科学。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Deep Learning for Accurate Vision-based Catch Composition in Tropical Tuna Purse Seiners [1.9503589459693256]
電子監視システムで捉えた画像を用いて,マグロとイエローフィンマグロを識別する難易度を定量化する。
そこで本研究では,信頼度の高い接地トラスデータセットを用いて,捕食者の種組成を推定する多段階パイプラインを提案する。
検証の平均精度は0.66$pm$ 0.03、リコールは0.88$pm$ 0.03である。
論文 参考訳(メタデータ) (2025-11-19T14:26:04Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Emulating Public Opinion: A Proof-of-Concept of AI-Generated Synthetic Survey Responses for the Chilean Case [0.0]
大規模言語モデル (LLMs) は、調査研究における方法論的および応用的な革新のための有望な道を提供する。
チリの世論確率論的調査から, LLM生成型人工サーベイ応答の信頼性を評価する。
論文 参考訳(メタデータ) (2025-09-11T21:43:59Z) - Fact or Facsimile? Evaluating the Factual Robustness of Modern Retrievers [34.31192184496381]
デンスレトリバーとリランカーは、検索強化世代(RAG)パイプラインの中心である。
我々は,これらのコンポーネントがベースとする大規模言語モデル(LLM)をどの程度の事実的能力で継承するか,あるいは失うかを評価する。
全ての埋め込みモデルにおいて、クエリと正しい完了の間のコサイン類似度スコアは、間違ったものよりも著しく高い。
論文 参考訳(メタデータ) (2025-08-28T04:13:51Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。