Fugu-MT 論文翻訳(概要): Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of LLMs

論文の概要: Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of LLMs

arxiv url: http://arxiv.org/abs/2312.17535v1
Date: Fri, 29 Dec 2023 09:33:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 10:15:59.639578
Title: Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of LLMs
Title（参考訳）: Olapa-MCoT:中国のLLMの数学的推論能力向上
Authors: Shaojie Zhu, Zhaobin Wang, Chengxiang Zhuo, Hui Lu, Bo Hu and Zang Li
Abstract要約: Olapa-MCoTは、ラマ2-13B PLMをベースとした、微調整とアライメント学習のためのLCMである。中国の数学的推論の精度は、ラマ2-13Bに比べて50%、36%上昇した。英語の推論能力も4%近く向上した。
参考スコア（独自算出の注目度）: 9.771512693622586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: CoT (Chain-of-Thought) is a way to solve reasoning problems for LLMs . Recently, many researches appear for improving the CoT capability of LLMs. In this work, we also proposed Olapa-MCoT, which is a LLMs based on llama2-13B PLM for finetuning and alignment learning. During the alignment training, we proposed the SimRRHF algorithm and Incorrect Data Relearning and mainly focused on optimizing the Chinese mathematical reasoning ability of Olapa-MCoT. The experiment achieved significant results, with the accuracy of Chinese mathematical reasoning up to 50%, 36% rise compared to llama2-13B. In addition, the accuracy of English reasoning ability also increased by nearly 4%.
Abstract（参考訳）: CoT(Chain-of-Thought)は、LLMの推論問題を解決する方法である。近年,LLMのCoT性能向上に向けた研究が数多く行われている。本研究では,Lama2-13B PLMをベースとしたLLMであるOlapa-MCoTを提案する。アライメントトレーニング中に,オラパmcotの中国数学推論能力を最適化することを中心に,simrrhfアルゴリズムと不正確なデータ再学習を提案した。実験の結果、中国の数学的推論の正確さは、llama2-13bと比較して50%、36%上昇した。さらに、英語の推論能力の精度も4%近く向上した。

関連論文リスト

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem [53.3188041952701]
一つの問題に対する批判的微調整(CFT)は,LLMの推論能力を効果的に解き放つことができることを示す。わずか5回のGPUトレーニングで、Qwen-Math-7B-CFTは6つのベンチマークで平均15%改善、3つのロジック推論ベンチマークで平均16%改善した。結果は20倍の計算量で、RLの結果に匹敵するか、さらに上回っている。
論文参考訳（メタデータ） (2025-06-03T18:35:52Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
Bridging the LLM Accessibility Divide? Performance, Fairness, and Cost of Closed versus Open LLMs for Automated Essay Scoring [18.33969226071914]
我々は、テキスト評価と自動エッセイスコアリングに関連する生成タスクにおいて、9つの主要な大規模言語モデル(LLM)を比較した。その結果,Llama 3 や Qwen2.5 などのオープン LLM は GPT-4 に比較して,予測性能が向上することがわかった。生成タスクにおいて、トップオープンLLMによって生成されたエッセイは、セマンティックコンポジション/埋め込みやML評価スコアの点から、クローズドLLMに匹敵するものである。
論文参考訳（メタデータ） (2025-03-14T19:34:40Z)
Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning [3.0449420665138485]
大規模言語モデル(LLM)は、特に数学において、公式な推論能力への関心を高めている。そこで本研究では,より弱いLLMからの意見の混合(MoO)を利用して,(相対的に)強いLLM推論を強化するポストトレーニング手法を提案する。その結果,LLMの考え方を取り入れることで,数学的推論が平均5%向上し,推論作業における多様な視点の価値が浮き彫りになることがわかった。
論文参考訳（メタデータ） (2025-02-26T23:22:02Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs [8.89259409245068]
大規模言語モデル(LLM)は、数学的推論において印象的な能力を示す。我々はMathematical Topics Tree (MaTT)ベンチマークを提示する。最上級モデルであるGPT-4は,複数選択シナリオにおいて,わずか54%の精度を達成した。
論文参考訳（メタデータ） (2024-06-07T18:21:26Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [34.07537926291133]
CHARMは、中国語で大規模言語モデル(LLM)の常識推論能力を評価するための、網羅的で詳細なベンチマークである。我々はCHARMで7つの英語と12の中国語のLLMを評価した。一部のLLMは中国の常識を覚えることに苦労し、推論能力に影響を及ぼす一方、同様のパフォーマンスにもかかわらず推論の違いを示す。
論文参考訳（メタデータ） (2024-03-21T03:52:01Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文参考訳（メタデータ） (2023-10-31T17:52:22Z)
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は比較的未調査です後方推論は前方推論の「逆」と見なすことができます性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文参考訳（メタデータ） (2023-10-03T12:03:06Z)
Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文参考訳（メタデータ） (2023-09-16T03:37:00Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。