Fugu-MT 論文翻訳(概要): Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

論文の概要: Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

arxiv url: http://arxiv.org/abs/2501.11110v1
Date: Sun, 19 Jan 2025 16:53:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.276868
Title: Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective
Title（参考訳）: 連鎖・オブ・推論:多パラダイム視点による大規模言語モデルにおける統一数学的推論に向けて
Authors: Yiyao Yu, Yuxiang Zhang, Dongdong Zhang, Xiao Liang, Hengyuan Zhang, Xingxing Zhang, Ziyi Yang, Mahmoud Khademi, Hany Awadalla, Junjie Wang, Yujiu Yang, Furu Wei,
Abstract要約: CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
参考スコア（独自算出の注目度）: 90.86370957353911
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have made notable progress in mathematical reasoning, yet they often rely on single-paradigm reasoning that limits their effectiveness across diverse tasks. In this paper, we introduce Chain-of-Reasoning (CoR), a novel unified framework that integrates multiple reasoning paradigms--Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)--to enable synergistic collaboration. CoR generates multiple potential answers using different reasoning paradigms and synthesizes them into a coherent final solution. We propose a Progressive Paradigm Training (PPT) strategy that allows models to progressively master these paradigms, culminating in the development of CoR-Math-7B. Experimental results demonstrate that CoR-Math-7B significantly outperforms current SOTA models, achieving up to a 41.0% absolute improvement over GPT-4 in theorem proving tasks and a 7.9% improvement over RL-based methods in arithmetic tasks. These results showcase the enhanced mathematical comprehensive ability of our model, achieving significant performance gains on specific tasks and enabling zero-shot generalization across tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、数学的な推論において顕著な進歩を遂げているが、多種多様なタスクでの有効性を制限する単一パラダイム推論に依存していることが多い。本稿では,複数の推論パラダイムを統合する新しい統合フレームワークであるChain-of-Reasoning(CoR)について紹介する。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。本稿では,これらのパラダイムを段階的に習得し,CoR-Math-7Bの開発を頂点とするPPT(Progressive Paradigm Training)戦略を提案する。実験の結果,CoR-Math-7Bは現在のSOTAモデルよりも優れており,定理証明タスクではGPT-4よりも最大41.0%向上し,算術タスクではRL法より7.9%向上した。これらの結果は、我々のモデルが拡張された数学的包括的能力を示し、特定のタスクにおいて顕著な性能向上を実現し、タスク間のゼロショットの一般化を可能にした。

関連論文リスト

Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。 DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文参考訳（メタデータ） (2025-10-22T17:41:42Z)
RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance [101.30279597148973]
プロセス報酬を明示せずにdLLMの推論軌道を導出するためのRFGを提案する。 RFGは、すべてのタスクとモデルタイプに一貫して大きな改善をもたらし、最大9.2%の精度向上を実現している。
論文参考訳（メタデータ） (2025-09-29T23:59:16Z)
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking [35.14983424309319]
GThinkerは、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMである。 GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。トレーニングを支援するため,GThinker-11Kの構築を行った。
論文参考訳（メタデータ） (2025-06-01T16:28:26Z)
RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-05T06:11:12Z)
Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。我々はPhi-4-reasoning-plusを開発した。どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文参考訳（メタデータ） (2025-04-30T05:05:09Z)
Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。 NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文参考訳（メタデータ） (2025-04-15T21:37:13Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。 GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文参考訳（メタデータ） (2025-03-20T12:22:18Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。 RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文参考訳（メタデータ） (2025-01-03T02:55:44Z)
A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文参考訳（メタデータ） (2024-12-12T16:04:31Z)
Diversity of Thought Elicits Stronger Reasoning Capabilities in Multi-Agent Debate Frameworks [0.0]
大規模言語モデルの推論と事実的正確性を改善するために, 思考の促進, 自己検証, マルチエージェントの議論が提案されている。マルチエージェントの議論はどんなモデルスケールでも有効であり、思考の多様性はLLMの議論においてより強力な推論をもたらす。
論文参考訳（メタデータ） (2024-10-10T21:59:01Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。 GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文参考訳（メタデータ） (2023-12-28T15:49:43Z)
Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文参考訳（メタデータ） (2023-12-04T08:07:21Z)
Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文参考訳（メタデータ） (2023-11-10T01:35:51Z)
Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。 GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文参考訳（メタデータ） (2023-05-26T02:15:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。