論文の概要: RiddleBench: A New Generative Reasoning Benchmark for LLMs
- arxiv url: http://arxiv.org/abs/2510.24932v1
- Date: Tue, 28 Oct 2025 19:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.775921
- Title: RiddleBench: A New Generative Reasoning Benchmark for LLMs
- Title(参考訳): RiddleBench: LLMの新しい生成推論ベンチマーク
- Authors: Deepon Halder, Alan Saji, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, Raj Dabre,
- Abstract要約: 大規模言語モデルは、多くの確立された推論ベンチマークで強いパフォーマンスを示している。
RiddleBenchは、これらのコア推論能力を調査するために設計された英語の難解パズル1,737のベンチマークである。
RiddleBenchにおける最先端モデルの評価は、根本的な弱点を示している。
- 参考スコア(独自算出の注目度): 23.638413274414276
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models have demonstrated strong performance on many established reasoning benchmarks. However, these benchmarks primarily evaluate structured skills like quantitative problem-solving, leaving a gap in assessing flexible, multifaceted reasoning abilities that are central to human intelligence. These abilities require integrating logical deduction with spatial awareness and constraint satisfaction, which current evaluations do not measure well. To address this, we introduce RiddleBench, a benchmark of 1,737 challenging puzzles in English designed to probe these core reasoning capabilities. Evaluation of state-of-the-art models on RiddleBench shows fundamental weaknesses. Even top proprietary models like Gemini 2.5 Pro, o3, and Claude 4 Sonnet achieve accuracy just above 60% (60.30%, 63.37%, and 63.16%). Analysis further reveals deep failures, including hallucination cascades (accepting flawed reasoning from other models) and poor self-correction due to a strong self-confirmation bias. Their reasoning is also fragile, with performance degrading significantly when constraints are reordered or irrelevant information is introduced. RiddleBench functions as a diagnostic tool for these issues and as a resource for guiding the development of more robust and reliable language models.
- Abstract(参考訳): 大規模言語モデルは、多くの確立された推論ベンチマークで強いパフォーマンスを示している。
しかし、これらのベンチマークは主に定量的問題解決のような構造化されたスキルを評価し、人間の知性の中心となる柔軟で多面的な推論能力を評価するためのギャップを残している。
これらの能力は、理論的推論と空間的認識と制約満足度の統合を必要とする。
これを解決するために、我々は、これらのコア推論能力を調査するために設計された英語の1,737の難解パズルのベンチマークであるRiddleBenchを紹介した。
RiddleBenchにおける最先端モデルの評価は、根本的な弱点を示している。
Gemini 2.5 Pro、o3、Claude 4 Sonnetのようなトッププロプライエタリモデルでさえ、精度は60%以上(60.30%、63.37%、63.16%)。
分析はさらに、幻覚カスケード(他のモデルからの欠陥のある推論を受け入れる)や、強い自己確認バイアスによる自己訂正の欠如など、深い失敗を明らかにしている。
彼らの推論も脆弱で、制約の再順序付けや無関係な情報の導入によってパフォーマンスが大幅に低下する。
RiddleBenchはこれらの問題の診断ツールとして機能し、より堅牢で信頼性の高い言語モデルの開発を導くためのリソースとして機能する。
関連論文リスト
- MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning [61.04601861108966]
大規模モデルの推論能力を評価するために,複数分野の質問を取り入れたベンチマークであるMorphoBenchを提案する。
MorphoBenchは、モデルの推論プロセスで生成されたキーステートメントを活用することで、質問の分析的課題を適応的に修正する。
我々は1300以上のテスト質問を集め、o3やGPT-5といったモデルの推論能力に基づいてMorphoBenchの難易度を反復的に調整した。
論文 参考訳(メタデータ) (2025-10-16T03:30:56Z) - Reasoning about Uncertainty: Do Reasoning Models Know When They Don't Know? [7.423494663010787]
推論言語モデルは、多くの挑戦的なベンチマークで最先端(SOTA)レコードを設定している。
従来の言語モデルと同様に、推論モデルは不正確で確実な応答を生成する傾向があります。
これらのモデルをいつ、どの程度信頼するかを知ることは、現実のアプリケーションにおける推論モデルの安全なデプロイに不可欠である。
論文 参考訳(メタデータ) (2025-06-22T21:46:42Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Thought calibration: Efficient and confident test-time scaling [11.028893528095196]
大きな言語モデルを推論することで、長いこと考えることで、素晴らしいテスト時間のスケーリングを実現しますが、このパフォーマンス向上は、かなりの計算コストを伴います。
思考終了時の動的決定を動的に行うための思考校正を提案する。
このフレームワークは,言語モデルに隠された表現をベースとした軽量なプローブによって実現されている。
論文 参考訳(メタデータ) (2025-05-23T22:17:18Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises [41.39610589639382]
本稿では,677質問を慎重に整理したデータセットであるRuozhiBenchについて紹介する。
我々は,LuozhiBench上の5シリーズから17の大規模言語モデル (LLM) を評価する。
LLMは論理的誤りを検出・推論する能力に限界を示し、最も優れたモデルであるClaude-3-haikuでさえも90%以上のヒトと比較して62%の精度しか達成できなかった。
論文 参考訳(メタデータ) (2025-02-18T18:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。