論文の概要: The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2509.14704v1
- Date: Thu, 18 Sep 2025 07:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.10988
- Title: The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs
- Title(参考訳): ナゾナゾベンチマーク:LLMにおけるインサイトに基づく推論の費用効果と拡張性
- Authors: Masaharu Mizumoto, Dat Nguyen, Zhiheng Han, Jiyuan Fang, Heyuan Guan, Xingfu Li, Naoya Shiraishi, Xuyang Tian, Yo Nakawake, Le Minh Nguyen,
- Abstract要約: そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
- 参考スコア(独自算出の注目度): 3.9977256267361754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmark saturation and contamination undermine confidence in LLM evaluation. We present Nazonazo, a cost-effective and extensible benchmark built from Japanese children's riddles to test insight-based reasoning. Items are short (mostly one sentence), require no specialized domain knowledge, and can be generated at scale, enabling rapid refresh of blind sets when leakage is suspected. We evaluate 38 frontier models and 126 adults on 120 riddles. No model except for GPT-5 is comparable to human performance, which achieves a 52.9% mean accuracy. Model comparison on extended 201 items shows that reasoning models significantly outperform non-reasoning peers, while model size shows no reliable association with accuracy. Beyond aggregate accuracy, an informal candidate-tracking analysis of thought logs reveals many cases of verification failure: models often produce the correct solution among intermediate candidates yet fail to select it as the final answer, which we illustrate with representative examples observed in multiple models. Nazonazo thus offers a cost-effective, scalable, and easily renewable benchmark format that addresses the current evaluation crisis while also suggesting a recurrent meta-cognitive weakness, providing clear targets for future control and calibration methods.
- Abstract(参考訳): ベンチマーク飽和と汚染はLLM評価の信頼性を損なう。
そこで本研究では,日本語学習者によるインサイトベース推論テストのための費用対効果・拡張性ベンチマークであるNazonazoについて紹介する。
アイテムは短く(主に1文)、専門的なドメイン知識は必要とせず、大規模に生成できるため、リークが疑われた時にブラインドセットを迅速にリフレッシュすることができる。
120リドルで38モデル, 成人126モデルを評価した。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
拡張された201項目のモデル比較では、推論モデルは非推論のピアを著しく上回り、モデルサイズは精度に信頼性がない。
モデルはしばしば中間候補の間で正しい解を生成するが、最終解としてそれを選択することに失敗し、複数のモデルで観察される代表例で示す。
そのためNazonazoは、コスト効率が高く、スケーラブルで、容易に再生可能なベンチマークフォーマットを提供し、現在の評価危機に対処しつつ、メタ認知の弱点を繰り返し示唆し、将来の制御と校正方法の明確なターゲットを提供する。
関連論文リスト
- When LLMs get significantly worse: A statistical approach to detect model degradations [33.63321816712603]
基礎モデルの推論コストと遅延を最小化することが重要な研究領域となっている。
モデル劣化を効率的に検出できる,McNemarのテストに基づく統計的に健全な仮説テストフレームワークを提案する。
実験の結果,0.3%の精度劣化でも,ノイズよりも実際の劣化が確実な原因であることが判明した。
論文 参考訳(メタデータ) (2026-02-09T10:45:13Z) - Learning More from Less: Unlocking Internal Representations for Benchmark Compression [37.69575776639016]
異種隠蔽状態を統一潜在空間に整列させて代表コアセットを構成するREPCOREを導入する。
5つのベンチマークと200以上のモデルの実験は、ランキングの相関と推定精度において、出力ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-31T13:11:39Z) - Truthfulness Despite Weak Supervision: Evaluating and Training LLMs Using Peer Prediction [5.366560952801833]
本稿では,モデル評価とポストトレーニングのためのピア予測手法を提案する。
真面目で情報的な答えを欺いたり、非形式的な答えに報いる。
ピア予測に基づく報奨による8Bモデルのトレーニングは、以前の悪意のある微調整による真偽の低下の大部分を回復させることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:47:46Z) - Measuring Language Model Hallucinations Through Distributional Correctness [7.106986689736826]
この問題を解決するために,新しい評価基準である分布補正スコア(DCS)を導入した。
DCSは、誤った回答における有害な過信と、棄権によって表される不確実性を区別し、解釈可能なデフォルト範囲でスコアを提供する。
DCSは、推測よりも真に不確実性を表現するモデルにインセンティブを与える、よりニュアンスで整列した評価パラダイムを提供する。
論文 参考訳(メタデータ) (2025-10-05T17:50:42Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。