論文の概要: Less Is More: Cognitive Load and the Single-Prompt Ceiling in LLM Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2604.18897v1
- Date: Mon, 20 Apr 2026 22:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.53269
- Title: Less Is More: Cognitive Load and the Single-Prompt Ceiling in LLM Mathematical Reasoning
- Title(参考訳): LLM数学的推論における認知負荷と単発シーリング
- Authors: Manuel Israel Cazares,
- Abstract要約: SAIR Equational Theories Stage 1のコンペティションの文脈において,形式的数学的推論のためのプロンプトエンジニアリングについて検討する。
このタスクは、すべてのマグマに対して1つの方程式法則が別の法則を意味するかどうかを決定する必要がある。
5週間にわたって、40以上のプロンプトバリアントを設計、テスト、分析しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a systematic empirical study of prompt engineering for formal mathematical reasoning in the context of the SAIR Equational Theories Stage 1 competition. The task requires deciding whether one equational law implies another over all magmas -- a problem that is undecidable in general but decidable for FALSE via finite model search. Over five weeks, we designed, tested, and analyzed more than 40 prompt variants, ranging from 0 to 4,878 bytes, across four evaluation splits and three language models (gpt-oss-120b, Llama 3.3 70B, Gemma 4 31B). Our central finding is a single-prompt ceiling: despite substantial engineering effort, balanced hard accuracy plateaus in an empirical saturation region of approximately 60--79% for gpt-oss-120b, compared to a 59.75% no-cheatsheet baseline. We identify three mechanisms underlying this ceiling: (1) the mathematical undecidability of the TRUE case limits what any finite prompt can encode; (2) complex rule systems decrease performance on weaker models (Llama 3.3 70B collapses to 0% TRUE recall with prompts exceeding 2KB); and (3) prompt ordering effects interact with model attention in fragile, non-monotonic ways. Our best submission (AN45c, 2,252 bytes) achieves 79.25% accuracy on hard3 (n=400; 95% CI: [75.0%, 82.9%]), with TRUE recall of 95.9% and FALSE recall of 63.4%, representing a +19.5 percentage-point improvement over the no-cheatsheet baseline (59.75%). We release all prompt variants, evaluation scripts, and results at https://github.com/israelcazares/sair-prompt-engineering
- Abstract(参考訳): 本稿では,SAIR Equational Theories Stage 1のコンペティションの文脈において,フォーマルな数学的推論のための迅速な工学の体系的な実証的研究を行う。
このタスクは、1つの方程式法則がすべてのマグマに対して別の意味を持つかどうかを決定する必要がある -- 一般には決定不可能だが有限モデル探索によってFALSEに決定可能である。
5週間にわたって、私たちは4つの評価分割と3つの言語モデル(gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B)で、0から4,878バイトまでの40以上のプロンプト変種を設計、テスト、分析しました。
我々の中心的な発見はシングルプロンプトの天井であり、工学的な努力にもかかわらず、試験的な飽和領域の硬度台地は60~79%がgpt-oss-120bであるのに対し、59.75%がチートシートのベースラインである。
1) TRUEの場合の数学的不確定性は,任意の有限プロンプトがエンコードできるものを制限すること,(2) より弱いモデルの性能を低下させる(Llama 3.3 70B は 2KB を超えるプロンプトで 0% TRUE リコールに崩壊する)こと,(3) 不安定で非単調な方法でモデル注意と相互作用する即時順序付け効果である。
我々のベスト・サブミッション(AN45c, 2,252バイト)は、ハード3(n=400; 95% CI: [75.0%, 82.9%])で79.25%の精度を達成し、TRUEリコールは95.9%、FALSEリコールは63.4%、非チートシートベースライン(59.75%)で+19.5ポイント改善した。
https://github.com/israelcazares/sair-prompt-engineeringで、すべてのプロンプト変種、評価スクリプト、結果をリリースします。
関連論文リスト
- FregeLogic at SemEval 2026 Task 11: A Hybrid Neuro-Symbolic Architecture for Content-Robust Syllogistic Validity Prediction [0.0017904458681854366]
SemEval-2026タスク11(Subtask 1)のハイブリッド型ニューロシンボリックシステムであるFregeLogicについて紹介する。
本システムでは,2.85のコンテンツ効果と41.88の総合スコアで94.3%の精度を実現した。
本研究は,アンサンブルコンセンサスが最も低い形式的手法を適用した目的のニューロシンボリックな統合が,本課題で用いられる精度+コンテント・エフェクト・エフェクト・メトリクスの組合せを改善することを示唆している。
論文 参考訳(メタデータ) (2026-04-20T14:31:00Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches [61.30693283718321]
研究レベルの数学的推論のための動的多重選択ベンチマークであるLiveMathematicianBenchを提案する。
新たに発表された定理で評価を基礎づけることで、記憶されたパターンを超えた現実的なテストベッドを提供する。
このパイプラインは、高レベルな証明戦略を使用して、妥当だが無効な解選択を構築する。
論文 参考訳(メタデータ) (2026-04-02T08:22:17Z) - BeyondBench: Benchmark-Free Evaluation of Reasoning in Language Models [13.380359214677176]
インターネット規模のトレーニングデータから汚染を避けるための評価フレームワークであるBeyondBenchを紹介する。
本フレームワークでは,44のアルゴリズムタスクを117のバリエーションでカバーし,3つの難易度に分類する。
85のオープンソースモデルと16のクローズドソースモデルを含む101の言語モデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T02:49:01Z) - WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning [51.13280433665446]
大規模言語モデル(LLM)は、一般的な数学的推論では優れているが、専門的な技術的数学では破滅的に失敗する。
無線通信では、問題は情報理論的境界の正確な操作を必要とするが、最先端のモデルでさえ有能な性能を達成するのに苦労する。
本稿では、コンパクトモデル(0.5B-7Bパラメータ)がドメイン固有強化学習により、より大きなモデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2025-09-27T09:58:03Z) - ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates [51.633266497799745]
思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
論文 参考訳(メタデータ) (2025-02-10T18:51:47Z) - ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。
本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。
また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning [24.386388107656334]
本稿では,自然言語から派生した翻訳プログラムを検証メカニズムとして活用するフレームワークであるProveを紹介する。
バニラ多数決とは異なり、我々の手法は、対応するプログラム出力が生成した解と矛盾する解をフィルタリングし、検証に合格する解のみを集約する。
以上の結果から,すべてのモデルサイズとデータセットにまたがる数学的推論タスクの解決において,Proveはバニラ多数投票を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2024-10-16T14:24:55Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。