Fugu-MT 論文翻訳(概要): Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving

論文の概要: Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving

arxiv url: http://arxiv.org/abs/2501.17084v1
Date: Tue, 28 Jan 2025 17:11:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:11.207455
Title: Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving
Title（参考訳）: Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving (特集バイオサイバネティックスとバイオサイバネティックス)
Authors: Evgenii Evstafev,
Abstract要約: 本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) excel in many natural language tasks, yet they struggle with complex mathemat-ical problem-solving, particularly in symbolic reasoning and maintaining consistent output. This study evalu-ates 10 LLMs with 7 to 8 billion parameters using 945 competition-level problems from the MATH dataset. The focus is on their ability to generate executable Python code as a step in their reasoning process, involving over 9,450 code executions. The research introduces an evaluation framework using mistral-large-2411 to rate answers on a 5-point scale, which helps address inconsistencies in mathematical notation. It also examines the impact of regenerating output token-by-token on refining results. The findings reveal a significant 34.5% per-formance gap between the top commercial model (gpt-4o-mini, scoring 83.7%) and the least effective open-source model (open-codestral-mamba:v0.1, scoring 49.2%). This disparity is especially noticeable in complex areas like Number Theory. While token-by-token regeneration slightly improved accuracy (+0.8%) for the model llama3.1:8b, it also reduced code execution time by 36.7%, highlighting a trade-off between efficiency and precision. The study also noted a consistent trend where harder problems correlated with lower accuracy across all models. Despite using controlled execution environments, less than 1% of the generated code was unsafe, and 3.17% of problems remained unsolved after 10 attempts, suggesting that hybrid reasoning methods may be beneficial.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くの自然言語処理に優れるが、特に記号的推論や一貫した出力の維持において複雑な数学的な問題解決に苦しむ。本研究は,MATHデータセットの競合レベル問題945を用いて,70億から80億のパラメータを持つ10個のLLMを評価する。焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。本研究は,数学的な表記法における不整合に対処する上で有効な5点尺度で回答を評価するために,Mistral-large-2411を用いた評価フレームワークを提案する。また, 出力トークン・バイ・トークンの再生が精製結果に及ぼす影響についても検討した。この結果、上位の商用モデル(gpt-4o-mini、83.7%)と最も効果的なオープンソースモデル(open-codestral-mamba:v0.1、49.2%)の間には34.5%の差が見られた。この格差は数論のような複雑な領域では特に顕著である。トークン・バイ・トーケン・リジェネレーションはモデルのllama3.1:8bの精度をわずかに改善した(+0.8%)が、コード実行時間を36.7%削減し、効率と精度のトレードオフを強調した。この研究はまた、難しい問題が全てのモデルで低い精度と相関する一貫した傾向を指摘した。制御された実行環境を使用しても、生成されたコードの1%未満は安全ではなく、10回の試行で3.17%の問題は未解決のままであり、ハイブリッド推論手法が有用である可能性が示唆された。

関連論文リスト

AlgoSimBench: Identifying Algorithmically Similar Problems for Competitive Programming [2.3020018305241337]
アルゴリズムに類似した問題(ASPs)を識別する能力を評価するために設計された新しいベンチマークであるAlgoSimBenchを紹介した。 AlgoSimBenchは1317の問題で構成されており、異なる粒度のアルゴリズムタグで注釈付けされ、そこから402の多重選択質問(MCQ)を逸脱する。評価の結果, LLM は ASP の識別に苦慮し, MCQ タスクでは 65.9% の精度で最高の性能のモデル (o3-mini) が得られた。本稿では,問題類似性検出のための新しい手法である解マッチング(ASM)を提案する。
論文参考訳（メタデータ） (2025-07-21T08:34:20Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。過度に考える傾向は、必然的に長い推論連鎖に繋がる。我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文参考訳（メタデータ） (2025-05-23T14:17:56Z)
ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models [14.403953640255823]
強化学習フレームワークに報酬信号として用いられる新しいスコアを導入し、モデルが正確かつ簡潔な推論トレースを生成するよう誘導する。このスコアは、ジャッジとして機能する大きな言語モデルによって評価され、単純なトークン長を超えて動的でコンテキスト対応のフィードバックを可能にする。提案手法は,MATHデータセット上での最先端の効率・正確性トレードオフを実現し,簡単な問題ではトークン使用率を最大31倍に削減し,精度を7%向上させるとともに,最も難しい問題では,トークン使用率を最大3.6倍に抑えながら,完全な推論を+7.5%向上させる。
論文参考訳（メタデータ） (2025-05-22T19:56:35Z)
Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。 APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文参考訳（メタデータ） (2025-04-21T22:29:02Z)
Code Generation with Small Language Models: A Deep Evaluation on Codeforces [2.314213846671956]
小言語モデルは、より高速な推論、デプロイメントオーバーヘッドの低減、ドメイン固有のタスクへの適応性の向上を提供する。 800から2100までのEloレーティングにまたがる280のCodeforce問題の5つのオープンSLMをベンチマークします。 PHI-4 14BはSLMの中で最高の性能を発揮し、パス@3は63.6%だった。
論文参考訳（メタデータ） (2025-04-09T23:57:44Z)
Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文参考訳（メタデータ） (2025-03-10T16:56:51Z)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-11-29T18:58:22Z)
Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文参考訳（メタデータ） (2024-11-25T12:44:02Z)
Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning [24.386388107656334]
本稿では,自然言語から派生した翻訳プログラムを検証メカニズムとして活用するフレームワークであるProveを紹介する。バニラ多数決とは異なり、我々の手法は、対応するプログラム出力が生成した解と矛盾する解をフィルタリングし、検証に合格する解のみを集約する。以上の結果から,すべてのモデルサイズとデータセットにまたがる数学的推論タスクの解決において,Proveはバニラ多数投票を一貫して上回る結果となった。
論文参考訳（メタデータ） (2024-10-16T14:24:55Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。 CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。 CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文参考訳（メタデータ） (2024-07-13T07:31:43Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文参考訳（メタデータ） (2024-03-07T18:00:40Z)
Orca-Math: Unlocking the potential of SLMs in Grade School Math [10.206509967833664]
最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは、34億のパラメータであると仮定されている。より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。エージェントが協調してデータを作成するマルチエージェントセットアップを使用して、200Kの数学問題の高品質な合成データセットを作成する。
論文参考訳（メタデータ） (2024-02-16T23:44:38Z)
Cumulative Reasoning with Large Language Models [12.267474250936123]
累積推論(CR)は、累積的かつ反復的に言語モデルを利用する新しいアプローチである。いくつかの複雑な推論タスクを通してCRの優位性を実証する。 CRはMATHデータセットに新しい最先端技術を設定する。
論文参考訳（メタデータ） (2023-08-08T16:18:20Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。