論文の概要: LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.04023v1
- Date: Sat, 05 Jul 2025 12:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.980863
- Title: LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models
- Title(参考訳): LLMThinkBench: 大規模言語モデルにおける基本的な数学的推論と再考を目指して
- Authors: Gaurav Srivastava, Aafiya Hussain, Sriram Srinivasan, Xuan Wang,
- Abstract要約: 大規模言語モデル (LLM) は複雑な数学的ベンチマークにおいて顕著な性能を達成している。
LLMは単純な算術的なタスクに苦しむことが多く、過剰な説明や「過度に考える」回答の傾向を示す。
このフレームワークは、ランダムなテストデータ生成と堅牢な解析戦略を備えた14の数学タスクを提供する。
カスタムタスクでツールを拡張し、シードでの実験を再現し、詳細な効率レポートを生成することができる。
- 参考スコア(独自算出の注目度): 4.370731670976415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance on complex mathematical benchmarks, yet often struggle with simple arithmetic tasks and exhibit a tendency toward over-explaining or "overthinking" answers. To systematically assess this phenomenon, we introduce LLMThinkBench, a modular benchmarking framework that enables researchers to evaluate basic math reasoning and overthinking in LLMs. The framework provides 14 configurable math tasks with randomized test data generation and robust parsing strategies. Researchers can quantify overthinking using our Overthinking Score metric, which captures accuracy-verbosity tradeoffs through harmonic mean formulation. The tool offers flexible evaluation with a scalable vLLM/Transformers backend, multi-GPU support, and full configurability. Users can extend the tool with custom tasks, reproduce experiments with seeding, and generate detailed efficiency reports. Distributed as a pip-installable package with CLI and API access, LLMThinkBench provides researchers and practitioners an accessible, cost-effective alternative to expensive LLM-as-a-judge methods for diagnosing basic reasoning capabilities and efficiency analysis. Package can be installed as: pip install llmthinkbench
- Abstract(参考訳): 大規模言語モデル (LLM) は複雑な数学的ベンチマークにおいて顕著な性能を達成しているが、単純な算術的なタスクに苦しむことが多く、過剰な説明や「過度に考える」回答の傾向を示す。
この現象をシステマティックに評価するために,LLMにおける基本的な数学推論と過剰思考を研究者が評価できるモジュール型ベンチマークフレームワークであるLLMThinkBenchを紹介した。
このフレームワークは、ランダムなテストデータ生成と堅牢な解析戦略を備えた14の構成可能な数学タスクを提供する。
研究者たちは、我々のOverthinking Scoreメトリックを使って過剰な思考を定量化できます。
このツールは、スケーラブルなvLLM/Transformersバックエンド、マルチGPUサポート、フルコンフィギュレーションで柔軟な評価を提供する。
カスタムタスクでツールを拡張し、シードでの実験を再現し、詳細な効率レポートを生成することができる。
CLIとAPIアクセスを備えたPipインストール可能なパッケージとして配布されているLLMThinkBenchは、研究者や実践者が、基本的な推論機能と効率分析を診断するための高価なLLM-as-a-judgeメソッドに対して、アクセス可能で費用対効果の高い代替手段を提供する。
pip install llmthinkbench
関連論文リスト
- Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。