論文の概要: Mechanics of Learned Reasoning 1: TempoBench, A Benchmark for Interpretable Deconstruction of Reasoning System Performance
- arxiv url: http://arxiv.org/abs/2510.27544v1
- Date: Fri, 31 Oct 2025 15:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.147956
- Title: Mechanics of Learned Reasoning 1: TempoBench, A Benchmark for Interpretable Deconstruction of Reasoning System Performance
- Title(参考訳): 学習推論の力学 1:TempoBench : 推論システム性能の解釈的デコンストラクションのためのベンチマーク
- Authors: Nikolaus Holzer, William Fishell, Baishakhi Ray, Mark Santolucito,
- Abstract要約: 大規模言語モデル(LLM)は多くのタスクにおいて人的パフォーマンスを上回っています。
我々はTempoBenchを紹介した。TempoBenchは、最初の公式な根拠と検証可能な診断ベンチマークである。
TCEでは65.6%、TCEでは7.5%のスコアが得られた。
- 参考スコア(独自算出の注目度): 10.26577135499472
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly excelling and outpacing human performance on many tasks. However, to improve LLM reasoning, researchers either rely on ad-hoc generated datasets or formal mathematical proof systems such as the Lean proof assistant. Whilst ad-hoc generated methods can capture the decision chains of real-world reasoning processes, they may encode some inadvertent bias in the space of reasoning they cover; they also cannot be formally verified. On the other hand, systems like Lean can guarantee verifiability, but are not well-suited to capture the nature of agentic decision chain-based tasks. This creates a gap both in performance for functions such as business agents or code assistants, and in the usefulness of LLM reasoning benchmarks, whereby these fall short in reasoning structure or real-world alignment. We introduce TempoBench, the first formally grounded and verifiable diagnostic benchmark that parametrizes difficulty to systematically analyze how LLMs perform reasoning. TempoBench uses two evaluation benchmarks to break down reasoning ability. First, temporal trace evaluation (TTE) tests the ability of an LLM to understand and simulate the execution of a given multi-step reasoning system. Subsequently, temporal causal evaluation (TCE) tests an LLM's ability to perform multi-step causal reasoning and to distill cause-and-effect relations from complex systems. We find that models score 65.6% on TCE-normal, and 7.5% on TCE-hard. This shows that state-of-the-art LLMs clearly understand the TCE task but perform poorly as system complexity increases. Our code is available at our \href{https://github.com/nik-hz/tempobench}{GitHub repository}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのタスクにおける人間のパフォーマンスをますます向上させています。
しかし、LLM推論を改善するために、研究者はアドホックに生成されたデータセットか、Lean証明アシスタントのような形式的な数学的証明システムに依存している。
アドホック生成法は実世界の推論過程の決定連鎖を捉えることができるが、それらがカバーする推論の空間における不注意なバイアスを符号化することもある。
一方、Leanのようなシステムは検証可能性を保証することができるが、エージェントによる決定連鎖に基づくタスクの性質を捉えるのに適していない。
これにより、ビジネスエージェントやコードアシスタントなどの機能のパフォーマンスと、LLM推論ベンチマークの有用性の両方にギャップが生じます。
我々は,LSMの論理的動作を体系的に解析することの難しさをパラメトリズする,最初の公式な根拠と検証可能な診断ベンチマークであるTempoBenchを紹介した。
TempoBenchは2つの評価ベンチマークを使用して推論能力を分解する。
まず、時間的トレース評価(TTE)は、LLMが与えられた多段階推論システムの実行を理解し、シミュレートする能力をテストする。
その後、時間因果評価(TCE)は、多段階因果推論を行い、複雑なシステムから因果関係を抽出するLLMの能力をテストする。
TCEでは65.6%、TCEでは7.5%のスコアが得られた。
このことは、最先端のLLMがTECタスクを明確に理解しているが、システムの複雑さが増大するにつれて性能が低下していることを示している。
私たちのコードは、我々の \href{https://github.com/nik-hz/tempobench}{GitHub repository} で利用可能です。
関連論文リスト
- Can Past Experience Accelerate LLM Reasoning? [7.481959757090105]
人間は経験と露出を増し、より速く、より良くタスクを実行することができる。
LLMは過去の経験からより高速に推し進め、計算コストを最大56%削減することができる。
論文 参考訳(メタデータ) (2025-05-27T02:44:00Z) - Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - From System 1 to System 2: A Survey of Reasoning Large Language Models [72.87412996793957]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。
OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-02-24T18:50:52Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。
我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文 参考訳(メタデータ) (2025-02-16T06:19:37Z) - Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。
実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文 参考訳(メタデータ) (2024-02-19T08:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。