論文の概要: Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of
LLMs
- arxiv url: http://arxiv.org/abs/2312.17535v1
- Date: Fri, 29 Dec 2023 09:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 10:15:59.639578
- Title: Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of
LLMs
- Title(参考訳): Olapa-MCoT:中国のLLMの数学的推論能力向上
- Authors: Shaojie Zhu, Zhaobin Wang, Chengxiang Zhuo, Hui Lu, Bo Hu and Zang Li
- Abstract要約: Olapa-MCoTは、ラマ2-13B PLMをベースとした、微調整とアライメント学習のためのLCMである。
中国の数学的推論の精度は、ラマ2-13Bに比べて50%、36%上昇した。
英語の推論能力も4%近く向上した。
- 参考スコア(独自算出の注目度): 9.771512693622586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CoT (Chain-of-Thought) is a way to solve reasoning problems for LLMs .
Recently, many researches appear for improving the CoT capability of LLMs. In
this work, we also proposed Olapa-MCoT, which is a LLMs based on llama2-13B PLM
for finetuning and alignment learning. During the alignment training, we
proposed the SimRRHF algorithm and Incorrect Data Relearning and mainly focused
on optimizing the Chinese mathematical reasoning ability of Olapa-MCoT. The
experiment achieved significant results, with the accuracy of Chinese
mathematical reasoning up to 50%, 36% rise compared to llama2-13B. In addition,
the accuracy of English reasoning ability also increased by nearly 4%.
- Abstract(参考訳): CoT(Chain-of-Thought)は、LLMの推論問題を解決する方法である。
近年,LLMのCoT性能向上に向けた研究が数多く行われている。
本研究では,Lama2-13B PLMをベースとしたLLMであるOlapa-MCoTを提案する。
アライメントトレーニング中に,オラパmcotの中国数学推論能力を最適化することを中心に,simrrhfアルゴリズムと不正確なデータ再学習を提案した。
実験の結果、中国の数学的推論の正確さは、llama2-13bと比較して50%、36%上昇した。
さらに、英語の推論能力の精度も4%近く向上した。
関連論文リスト
- Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [34.07537926291133]
CHARMは、中国語で大規模言語モデル(LLM)の常識推論能力を評価するための、網羅的で詳細なベンチマークである。
我々はCHARMで7つの英語と12の中国語のLLMを評価した。
一部のLLMは中国の常識を覚えることに苦労し、推論能力に影響を及ぼす一方、同様のパフォーマンスにもかかわらず推論の違いを示す。
論文 参考訳(メタデータ) (2024-03-21T03:52:01Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。
ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。
既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文 参考訳(メタデータ) (2023-09-16T03:37:00Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Multilingual Machine Translation with Large Language Models: Empirical
Results and Analysis [108.37242622164709]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。