論文の概要: BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.14761v1
- Date: Mon, 16 Mar 2026 02:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.01043
- Title: BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models
- Title(参考訳): BrainBench: 大規模言語モデルにおける常識推論ギャップの公開
- Authors: Yuzhe Tang,
- Abstract要約: 大きな言語モデル(LLM)は、標準ベンチマークで印象的なスコアを得るが、人間が数秒で正しく答えられるような質問を日常的に失敗する。
BrainBenchは、慎重に設計された20のカテゴリにまたがる100のブレインティーザー質問のベンチマークです。
- 参考スコア(独自算出の注目度): 4.264192013842096
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) achieve impressive scores on standard benchmarks yet routinely fail questions that any human would answer correctly in seconds. We introduce BrainBench, a benchmark of 100 brainteaser questions spanning 20 carefully designed categories, each targeting a specific commonsense reasoning failure mode in LLMs. Categories range from implicit physical constraints ("Should I walk or drive my rental car to the return lot?") to semantic scope tricks and default assumption hijacks. We evaluate eight frontier models -- four from the Claude family and four from the GPT family -- using a zero-shot protocol with 10 independent runs per question. The best model, Claude Opus 4.6 with extended thinking, achieves only 80.3% accuracy; the worst, GPT-4o, scores 39.7%. Even top-performing models exhibit a 6-16 percentage-point gap between accuracy and consistency, revealing stochastic reasoning. Cross-lingual evaluation in Chinese shows most models degrade by 2-8 percentage points, confirming that these failures reflect reasoning deficits rather than language-specific artifacts. BrainBench provides a fine-grained diagnostic tool for identifying where and why LLMs substitute surface heuristics for genuine commonsense reasoning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、標準ベンチマークで印象的なスコアを得るが、人間が数秒で正しく答えられるような質問を日常的に失敗する。
我々は、20の慎重に設計されたカテゴリにまたがる100のブレインティーザー質問のベンチマークであるBrainBenchを紹介し、それぞれがLLMの特定の常識推論障害モードをターゲットにしている。
カテゴリは、暗黙の物理的な制約("Should I walk or drive my rent car to the return lot?")から、セマンティックスコープのトリックやデフォルトの仮定ハイジャックまで、さまざまです。
質問毎に10の独立実行を持つゼロショットプロトコルを用いて,8つのフロンティアモデル – Claudeファミリーの4つ,GPTファミリーの4つ – を評価した。
最高のモデルであるクロード・オプス4.6は80.3%の精度しか達成せず、最悪の GPT-4o は39.7% である。
トップパフォーマンスモデルでさえ、精度と一貫性の間に6~16ポイントの差があり、確率論的推論が明らかである。
中国語の言語間の評価では、ほとんどのモデルは2-8ポイントの低下を示し、これらの失敗は言語固有の人工物よりも推論上の欠陥を反映していることを確認した。
BrainBenchは、LLMが真のコモンセンス推論のために表面ヒューリスティックを置換する場所と理由を特定するための、きめ細かい診断ツールを提供する。
関連論文リスト
- RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Generics and Default Reasoning in Large Language Models [0.0]
本稿では,28の大規模言語モデルにおいて,汎用化を含む20の不可能な推論パターンを推論する能力について検討する。
いくつかのフロンティアモデルが多くのデフォルト推論問題をうまく処理しているのに対して、性能はモデルによって大きく異なり、スタイルが促される。
論文 参考訳(メタデータ) (2025-08-19T10:28:53Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises [41.39610589639382]
本稿では,677質問を慎重に整理したデータセットであるRuozhiBenchについて紹介する。
我々は,LuozhiBench上の5シリーズから17の大規模言語モデル (LLM) を評価する。
LLMは論理的誤りを検出・推論する能力に限界を示し、最も優れたモデルであるClaude-3-haikuでさえも90%以上のヒトと比較して62%の精度しか達成できなかった。
論文 参考訳(メタデータ) (2025-02-18T18:47:11Z) - Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning [24.386388107656334]
本稿では,自然言語から派生した翻訳プログラムを検証メカニズムとして活用するフレームワークであるProveを紹介する。
バニラ多数決とは異なり、我々の手法は、対応するプログラム出力が生成した解と矛盾する解をフィルタリングし、検証に合格する解のみを集約する。
以上の結果から,すべてのモデルサイズとデータセットにまたがる数学的推論タスクの解決において,Proveはバニラ多数投票を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2024-10-16T14:24:55Z) - Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。