Fugu-MT 論文翻訳(概要): Solving Math Word Problem via Cooperative Reasoning induced Language Models

論文の概要: Solving Math Word Problem via Cooperative Reasoning induced Language Models

arxiv url: http://arxiv.org/abs/2210.16257v1
Date: Fri, 28 Oct 2022 16:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-31 16:05:30.553826
Title: Solving Math Word Problem via Cooperative Reasoning induced Language Models
Title（参考訳）: 協調推論誘導言語モデルによる数学語問題の解法
Authors: Xinyu Zhu, Junjie Wang, Lin Zhang, Yuxiang Zhang, Ruyi Gan, Jiaxing Zhang, Yujiu Yang
Abstract要約: 我々は、数学語問題(MWP)を解決するための協調推論によるPLMを開発する。提案手法では,ジェネレータが推論経路の生成に責任を持ち,検証器が評価の監督に使用される。我々は,いくつかの数学的推論データセット上でのCoReフレームワークの評価を行い,最先端の手法よりも良好な改善を実現した。
参考スコア（独自算出の注目度）: 20.79178583914654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale pre-trained language models (PLMs) bring new opportunities to challenge problems, especially those that need high-level intelligence, such as the math word problem (MWPs). However, directly applying existing PLMs to MWPs can fail as the generation process lacks sufficient supervision and thus lacks fast adaptivity as humans. We notice that human reasoning has a dual reasoning framework that consists of an immediate reaction system (system 1) and a delicate reasoning system (system 2), where the entire reasoning is determined by their interaction. This inspires us to develop a cooperative reasoning-induced PLM for solving MWPs, called Cooperative Reasoning (CoRe), resulting in a human-like reasoning architecture with system 1 as the generator and system 2 as the verifier. In our approach, the generator is responsible for generating reasoning paths, and the verifiers are used to supervise the evaluation in order to obtain reliable feedback for the generator. We evaluate our CoRe framework on several mathematical reasoning datasets and achieve decent improvement over state-of-the-art methods, up to 9.8% increase over best baselines.
Abstract（参考訳）: 大規模事前学習言語モデル(PLM)は、特に数学語問題(MWP)のような高レベルの知性を必要とする問題に挑戦する新たな機会をもたらす。しかしながら、既存のPLMをMWPに直接適用することは、生成プロセスが十分な監督を欠いているため、人間としての高速な適応性を欠いているため失敗する可能性がある。人間の推論には、即時反応系(システム1)と微妙な推論系(システム2)から構成される二重推論の枠組みがあることに気付く。これにより、協調推論(Cooperative Reasoning, CoRe)と呼ばれる、MWPを解くための協調推論によるPLMを開発することとなり、システム1をジェネレータとして、システム2をバリデーションとして、人間のような推論アーキテクチャを実現する。提案手法では, ジェネレータは推論経路の生成に責任を持ち, 検証器を用いて評価を監督し, ジェネレータに対する信頼性の高いフィードバックを得る。我々はCoReフレームワークをいくつかの数学的推論データセット上で評価し、最先端の手法よりも優れた改善を実現した。

関連論文リスト

Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer [37.81465564673498]
大規模言語モデル(LLM)は、数学的推論タスクを解く上で有望な能力を示した。メタプロブレムのリコールとリフレクションを LLM に明示的に促すフレームワークである textbfMetaLadder を提案する。我々のMetaLadderはLLMの問題解決精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-19T04:36:35Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
From System 1 to System 2: A Survey of Reasoning Large Language Models [72.99519859756602]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。 OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-02-24T18:50:52Z)
Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文参考訳（メタデータ） (2024-12-12T16:20:36Z)
How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis [16.65073455206535]
大きな言語モデル(LLM)は、計画と推論を必要とするタスクで素晴らしいパフォーマンスを示しています。そこで本研究では,複雑な論理的推論を行うネットワークの能力の基盤となる内部メカニズムについて検討する。
論文参考訳（メタデータ） (2024-11-06T18:35:32Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction [9.44858963874474]
CoT(Chain-of-Thought)により、LLM(Large Language Models)の複雑な推論能力が向上する。我々は,これらの課題に対処するために,自己整合性とマルチエージェントの議論システムを用いたCoTリレーラを提案する。様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-08-25T21:20:17Z)
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文参考訳（メタデータ） (2024-07-23T20:40:37Z)
Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文参考訳（メタデータ） (2024-07-16T08:49:35Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models [25.628569338856934]
私たちは、言語モデルの認知的推論能力を初めて明らかにしました。認知科学における二重プロセス理論に基づいて、私たちは言語モデルの認知的推論能力を初めて解明する。
論文参考訳（メタデータ） (2023-11-12T06:56:21Z)
BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs' Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文参考訳（メタデータ） (2023-10-25T23:32:12Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-30T13:44:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。