論文の概要: Watson & Holmes: A Naturalistic Benchmark for Comparing Human and LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.19914v1
- Date: Mon, 23 Feb 2026 14:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.864136
- Title: Watson & Holmes: A Naturalistic Benchmark for Comparing Human and LLM Reasoning
- Title(参考訳): Watson & Holmes:人間とLLMの推論の比較のための自然なベンチマーク
- Authors: Thatchawin Leelawat, Lewis D Griffin,
- Abstract要約: AI推論のための既存のベンチマークは、これらの能力が自然主義的な文脈における人間の推論にどのように近いかについての限られた洞察を提供する。
本稿では,段階的に提示された物語的証拠,オープンエンド質問,制約のない言語応答を用いて,推論性能を評価するための新しいベンチマークを提案する。
結果は、時間とともにAIモデルのパフォーマンスが明らかに改善されたことを示している。
- 参考スコア(独自算出の注目度): 1.094320514634939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for AI reasoning provide limited insight into how closely these capabilities resemble human reasoning in naturalistic contexts. We present an adaptation of the Watson & Holmes detective tabletop game as a new benchmark designed to evaluate reasoning performance using incrementally presented narrative evidence, open-ended questions and unconstrained language responses. An automated grading system was developed and validated against human assessors to enable scalable and replicable performance evaluation. Results show a clear improvement in AI model performance over time. Over nine months of 2025, model performance rose from the lower quartile of the human comparison group to approximately the top 5%. Around half of this improvement reflects steady advancement across successive model releases, while the remainder corresponds to a marked step change associated with reasoning-oriented model architectures. Systematic differences in the performance of AI models compared to humans, dependent on features of the specific detection puzzle, were mostly absent with the exception of a fall in performance for models when solving longer cases (case lengths being in the range of 1900-4000 words), and an advantage at inductive reasoning for reasoning models at early stages of case solving when evidence was scant.
- Abstract(参考訳): AI推論のための既存のベンチマークは、これらの能力が自然主義的な文脈における人間の推論にどのように近いかについての限られた洞察を提供する。
本稿では,Watson & Holmes の探偵テーブルトップゲームを,漸進的に提示された物語的エビデンス,オープンな質問,制約のない言語応答を用いて推論性能を評価するための新しいベンチマークとして適用する。
スケーラブルで複製可能な性能評価を実現するために,人間の評価者に対して自動階調システムを開発し,検証した。
結果は、時間とともにAIモデルのパフォーマンスが明らかに改善されたことを示している。
2025年の9ヶ月で、モデルの性能は、ヒト比較群の下位4分の1から、約5%まで上昇した。
この改善のおよそ半分は連続したモデルリリース間の着実な進歩を反映しており、残りは推論指向のモデルアーキテクチャに関連する顕著なステップの変更に対応している。
人間と比較してAIモデルの性能の体系的な違いは、特定の検出パズルの特徴に依存するが、より長いケース(1900-4000ワードの範囲)の解決におけるモデルの性能低下や、証拠がスキャンされた場合のケース解決の初期段階における推論モデルに対する帰納的推論の利点を除いては、ほとんど欠落していた。
関連論文リスト
- When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.66788281323414]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。
分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。
専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文 参考訳(メタデータ) (2026-02-18T16:51:37Z) - The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation [1.2324085268373774]
我々は、ベンチマークを越すことが推論能力を示すのか、それとも単に測定する能力から逸脱した数字を追跡するのかを議論する。
我々は,OpenAI, Anthropic, Googleの3つのモデルファミリと,その推論能力の長年にわたる進化について調査する。
論文 参考訳(メタデータ) (2025-11-03T09:09:29Z) - ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Benchmark-Driven Selection of AI: Evidence from DeepSeek-R1 [0.0]
より優れたパフォーマンスは、必ずしもテスト時のアルゴリズム改善やモデルサイズによってもたらされるのではなく、影響のあるベンチマークを学習のカリキュラムとして使用することによってもたらされることを示す。
我々は、このベンチマーク駆動によるAIの選択と呼び、HumanityのLast Examからのシーケンシャルな意思決定問題を使用して、DeepSeek-R1への影響を示す。
論文 参考訳(メタデータ) (2025-08-13T20:15:20Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - Correlating and Predicting Human Evaluations of Language Models from Natural Language Processing Benchmarks [47.40240774236047]
4つのChat Llama 2モデルと1k以上のシングルターンと2k以上の人間のアノテータからの2k以上のマルチターンダイアログの広範な人間の嗜好を比較した。
ほとんどのNLPベンチマークは、人間の評価と強く相関しており、安価で自動化されたメトリクスが、驚くほど信頼性の高い人間の嗜好予測として役立つことを示唆している。
論文 参考訳(メタデータ) (2025-02-24T01:01:02Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models [44.42887452269389]
検出者は、様々なケースで意思決定を行う際に、情報検出と推論を同時に行うことが多い。
我々は、キー情報検出とマルチホップ推論において、モデルが協調的に機能する能力を評価するために設計された読解理解データセットであるTectBenchを紹介する。
本手法は,モデルが推論の前にコンテキスト内で可能なすべての手がかりを識別することを奨励する。
論文 参考訳(メタデータ) (2023-07-11T08:45:46Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。