論文の概要: Large Language Models Imitate Logical Reasoning, but at what Cost?
- arxiv url: http://arxiv.org/abs/2509.12645v1
- Date: Tue, 16 Sep 2025 04:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.875755
- Title: Large Language Models Imitate Logical Reasoning, but at what Cost?
- Title(参考訳): 大規模言語モデルは論理的推論を省略するが、どのコストがかかるか?
- Authors: Lachlan McGinness, Peter Baumgartner,
- Abstract要約: 本稿では,18カ月間のフロンティア大言語モデルの推論能力を評価する。
我々は,2023年12月,2024年9月,2025年6月の3つの主要モデルの精度を,真偽の質問に対して測定した。
2023年から2024年までのパフォーマンス向上は、シークレットの隠された連鎖によるものである。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a longitudinal study which evaluates the reasoning capability of frontier Large Language Models over an eighteen month period. We measured the accuracy of three leading models from December 2023, September 2024 and June 2025 on true or false questions from the PrOntoQA dataset and their faithfulness to reasoning strategies provided through in-context learning. The improvement in performance from 2023 to 2024 can be attributed to hidden Chain of Thought prompting. The introduction of thinking models allowed for significant improvement in model performance between 2024 and 2025. We then present a neuro-symbolic architecture which uses LLMs of less than 15 billion parameters to translate the problems into a standardised form. We then parse the standardised forms of the problems into a program to be solved by Z3, an SMT solver, to determine the satisfiability of the query. We report the number of prompt and completion tokens as well as the computational cost in FLOPs for open source models. The neuro-symbolic approach significantly reduces the computational cost while maintaining near perfect performance. The common approximation that the number of inference FLOPs is double the product of the active parameters and total tokens was accurate within 10\% for all experiments.
- Abstract(参考訳): 本研究は18カ月間のフロンティア大言語モデルの推論能力を評価する縦断的研究である。
2023年12月,2024年9月,2025年6月,PrOntoQAデータセットの真偽質問と,文脈内学習による推論戦略への忠実度から,主要な3つのモデルの精度を測定した。
2023年から2024年までのパフォーマンス向上は、シークレットの隠された連鎖によるものである。
思考モデルの導入により、2024年から2025年にかけてのモデル性能が大幅に向上した。
次に、150億パラメータ未満のLSMを用いて、問題を標準化された形式に変換するニューロシンボリックアーキテクチャを提案する。
次に、SMTソルバであるZ3によって解決されるプログラムに問題の標準化された形式を解析し、クエリの満足度を決定する。
本稿では,オープンソースモデルのFLOPにおけるプロンプトおよびコンプリートトークンの数と計算コストについて報告する。
ニューロシンボリックアプローチは、ほぼ完全な性能を維持しながら計算コストを大幅に削減する。
FLOPsの数は活性パラメータの積の2倍であり、全実験の合計トークンは10%以内の精度であった。
関連論文リスト
- Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis [0.0]
本稿では,Qwen 2.5-14B-Instructの言語モデルであるDatarus-R1-14Bを提案する。
Datarusは、独立した問合せペアではなく、推論ステップ、コード実行、エラートレース、自己補正、最終的な結論を含む完全な分析トラジェクトリに基づいて訓練されている。
論文 参考訳(メタデータ) (2025-08-18T21:58:18Z) - Logit Arithmetic Elicits Long Reasoning Capabilities Without Training [14.015546463427732]
大きな推論モデル(LRM)は、バックトラックや自己補正といった認知戦略を含む長いチェーン・オブ・シント(CoT)を介して複雑な推論を行うことができる。
最近の研究は、いくつかのモデルは本質的にこれらの長い推論能力を持ち、余分な訓練によって解錠される可能性があることを示唆している。
本稿では,より小さなモデルをガイドとして,目標とする大規模LMを長時間の推論のために調整するための復号時間アプローチであるThinkLogitを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:31:36Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context [66.15505423059234]
ASTROは,検索アルゴリズムのような推論のために,言語モデルをトレーニングするためのフレームワークである。
ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.4%,AMC 2023では26.9%,AIME 2024では20.0%,絶対的な性能向上を達成した。
論文 参考訳(メタデータ) (2025-07-01T04:10:15Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination [35.88131356701857]
このデータセットは、スペイン語と英語の大学入学レベルの試験に関する1003の質問からなる。
現在のオープンソースモデルとプロプライエタリモデルの選択は、一様ゼロショット実験環境で評価される。
論文 参考訳(メタデータ) (2024-09-19T13:13:07Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。