論文の概要: THINK-Bench: Evaluating Thinking Efficiency and Chain-of-Thought Quality of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.22113v1
- Date: Wed, 28 May 2025 08:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.505967
- Title: THINK-Bench: Evaluating Thinking Efficiency and Chain-of-Thought Quality of Large Reasoning Models
- Title(参考訳): THINK-Bench:大規模推論モデルの思考効率と連鎖品質の評価
- Authors: Zhiyuan Li, Yi Chang, Yuan Wu,
- Abstract要約: 大きな推論モデル(LRM)は複雑なタスクにおいて顕著なパフォーマンスを達成しており、しばしば従来の大言語モデル(LLM)よりも優れています。
再考は計算効率を著しく制限する。
LRMの推論効率を評価するためのベンチマークであるThink-Benchを紹介する。
- 参考スコア(独自算出の注目度): 17.609493312457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) have achieved impressive performance in complex tasks, often outperforming conventional large language models (LLMs). However, the prevalent issue of overthinking severely limits their computational efficiency. Overthinking occurs when models generate excessive and redundant tokens that contribute little to accurate outcomes, especially in simple tasks, resulting in a significant waste of computational resources. To systematically investigate this issue, we introduce Think-Bench, a benchmark designed to evaluate the reasoning efficiency of LRMs. We also propose novel efficiency metrics and conduct a comprehensive evaluation of various LRMs across multiple dimensions, including the reasoning process, outcome quality, and chain-of-thought (CoT) characteristics. Our analysis reveals that most LRMs exhibit overthinking in handling easy questions, generating unnecessarily lengthy reasoning chains. While many LRMs demonstrate high CoT quality, several suffer from low efficiency. We hope that Think-Bench can serve as a robust foundation for advancing research into LRMs.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑なタスクにおいて顕著なパフォーマンスを達成しており、しばしば従来の大規模言語モデル(LLM)よりも優れています。
しかし、過度に考えるという一般的な問題は、計算効率を著しく制限している。
過度かつ冗長なトークンが生成され、特に単純なタスクにおいて正確な結果にはほとんど寄与しないため、計算リソースの浪費が発生する。
この問題を体系的に研究するために, LRMの推論効率を評価するためのベンチマークであるThink-Benchを紹介する。
また,新たな効率指標を提案し,推論プロセス,結果品質,チェーン・オブ・シント(CoT)特性など,多次元にわたる様々なLEMを包括的に評価する。
我々の分析によると、ほとんどのLEMは簡単な質問に過剰に対処し、不要に長い推論連鎖を生成する。
多くのLRMは高いCoT品質を示すが、いくつかは低効率に悩まされている。
我々は,Think-Bench が LRM の研究を進めるための堅牢な基盤となることを願っている。
関連論文リスト
- Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models [32.49420948390984]
大規模推論モデル(LRM)は一般に「過大な」問題に悩まされる。
本研究では, LRMが不要な中間ステップを回避できるように, シンプルで効率的なパイプラインであるThoughtManiを提案する。
ThoughtManiは安全性のアライメントを平均10%向上させる。
論文 参考訳(メタデータ) (2025-04-18T11:07:19Z) - S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.083179473480705]
大規模推論モデル(LRM)は、思考の明示的な連鎖を通じて複雑な推論タスクにおいてブレークスルーを達成した。
システム2の思考に大きく依存しているため、システム1の思考能力は制限される可能性がある。
S1-Bench氏は、システム1.1にもっと適した質問に対して、LEMのパフォーマンスを評価するために、単純で多様で自然な質問のスイートを紹介している。
論文 参考訳(メタデータ) (2025-04-14T16:13:23Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。