Fugu-MT 論文翻訳(概要): LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models

論文の概要: LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models

arxiv url: http://arxiv.org/abs/2507.04023v1
Date: Sat, 05 Jul 2025 12:31:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.980863
Title: LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models
Title（参考訳）: LLMThinkBench: 大規模言語モデルにおける基本的な数学的推論と再考を目指して
Authors: Gaurav Srivastava, Aafiya Hussain, Sriram Srinivasan, Xuan Wang,
Abstract要約: 大規模言語モデル (LLM) は複雑な数学的ベンチマークにおいて顕著な性能を達成している。 LLMは単純な算術的なタスクに苦しむことが多く、過剰な説明や「過度に考える」回答の傾向を示す。このフレームワークは、ランダムなテストデータ生成と堅牢な解析戦略を備えた14の数学タスクを提供する。カスタムタスクでツールを拡張し、シードでの実験を再現し、詳細な効率レポートを生成することができる。
参考スコア（独自算出の注目度）: 4.370731670976415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable performance on complex mathematical benchmarks, yet often struggle with simple arithmetic tasks and exhibit a tendency toward over-explaining or "overthinking" answers. To systematically assess this phenomenon, we introduce LLMThinkBench, a modular benchmarking framework that enables researchers to evaluate basic math reasoning and overthinking in LLMs. The framework provides 14 configurable math tasks with randomized test data generation and robust parsing strategies. Researchers can quantify overthinking using our Overthinking Score metric, which captures accuracy-verbosity tradeoffs through harmonic mean formulation. The tool offers flexible evaluation with a scalable vLLM/Transformers backend, multi-GPU support, and full configurability. Users can extend the tool with custom tasks, reproduce experiments with seeding, and generate detailed efficiency reports. Distributed as a pip-installable package with CLI and API access, LLMThinkBench provides researchers and practitioners an accessible, cost-effective alternative to expensive LLM-as-a-judge methods for diagnosing basic reasoning capabilities and efficiency analysis. Package can be installed as: pip install llmthinkbench
Abstract（参考訳）: 大規模言語モデル (LLM) は複雑な数学的ベンチマークにおいて顕著な性能を達成しているが、単純な算術的なタスクに苦しむことが多く、過剰な説明や「過度に考える」回答の傾向を示す。この現象をシステマティックに評価するために,LLMにおける基本的な数学推論と過剰思考を研究者が評価できるモジュール型ベンチマークフレームワークであるLLMThinkBenchを紹介した。このフレームワークは、ランダムなテストデータ生成と堅牢な解析戦略を備えた14の構成可能な数学タスクを提供する。研究者たちは、我々のOverthinking Scoreメトリックを使って過剰な思考を定量化できます。このツールは、スケーラブルなvLLM/Transformersバックエンド、マルチGPUサポート、フルコンフィギュレーションで柔軟な評価を提供する。カスタムタスクでツールを拡張し、シードでの実験を再現し、詳細な効率レポートを生成することができる。 CLIとAPIアクセスを備えたPipインストール可能なパッケージとして配布されているLLMThinkBenchは、研究者や実践者が、基本的な推論機能と効率分析を診断するための高価なLLM-as-a-judgeメソッドに対して、アクセス可能で費用対効果の高い代替手段を提供する。 pip install llmthinkbench

関連論文リスト

Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文参考訳（メタデータ） (2025-05-21T04:59:44Z)
Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。 TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文参考訳（メタデータ） (2025-04-29T13:52:47Z)
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文参考訳（メタデータ） (2025-02-17T16:56:23Z)
Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文参考訳（メタデータ） (2024-06-15T12:02:14Z)
Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-30T21:53:30Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文参考訳（メタデータ） (2023-05-23T00:16:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。