論文の概要: Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of
LLMs
- arxiv url: http://arxiv.org/abs/2312.17535v1
- Date: Fri, 29 Dec 2023 09:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 10:15:59.639578
- Title: Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of
LLMs
- Title(参考訳): Olapa-MCoT:中国のLLMの数学的推論能力向上
- Authors: Shaojie Zhu, Zhaobin Wang, Chengxiang Zhuo, Hui Lu, Bo Hu and Zang Li
- Abstract要約: Olapa-MCoTは、ラマ2-13B PLMをベースとした、微調整とアライメント学習のためのLCMである。
中国の数学的推論の精度は、ラマ2-13Bに比べて50%、36%上昇した。
英語の推論能力も4%近く向上した。
- 参考スコア(独自算出の注目度): 9.771512693622586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CoT (Chain-of-Thought) is a way to solve reasoning problems for LLMs .
Recently, many researches appear for improving the CoT capability of LLMs. In
this work, we also proposed Olapa-MCoT, which is a LLMs based on llama2-13B PLM
for finetuning and alignment learning. During the alignment training, we
proposed the SimRRHF algorithm and Incorrect Data Relearning and mainly focused
on optimizing the Chinese mathematical reasoning ability of Olapa-MCoT. The
experiment achieved significant results, with the accuracy of Chinese
mathematical reasoning up to 50%, 36% rise compared to llama2-13B. In addition,
the accuracy of English reasoning ability also increased by nearly 4%.
- Abstract(参考訳): CoT(Chain-of-Thought)は、LLMの推論問題を解決する方法である。
近年,LLMのCoT性能向上に向けた研究が数多く行われている。
本研究では,Lama2-13B PLMをベースとしたLLMであるOlapa-MCoTを提案する。
アライメントトレーニング中に,オラパmcotの中国数学推論能力を最適化することを中心に,simrrhfアルゴリズムと不正確なデータ再学習を提案した。
実験の結果、中国の数学的推論の正確さは、llama2-13bと比較して50%、36%上昇した。
さらに、英語の推論能力の精度も4%近く向上した。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs [8.89259409245068]
大規模言語モデル(LLM)は、数学的推論において印象的な能力を示す。
我々はMathematical Topics Tree (MaTT)ベンチマークを提示する。
最上級モデルであるGPT-4は,複数選択シナリオにおいて,わずか54%の精度を達成した。
論文 参考訳(メタデータ) (2024-06-07T18:21:26Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [34.07537926291133]
CHARMは、中国語で大規模言語モデル(LLM)の常識推論能力を評価するための、網羅的で詳細なベンチマークである。
我々はCHARMで7つの英語と12の中国語のLLMを評価した。
一部のLLMは中国の常識を覚えることに苦労し、推論能力に影響を及ぼす一方、同様のパフォーマンスにもかかわらず推論の違いを示す。
論文 参考訳(メタデータ) (2024-03-21T03:52:01Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は 比較的未調査です
後方推論は 前方推論の「逆」と見なすことができます
性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。
ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。
既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文 参考訳(メタデータ) (2023-09-16T03:37:00Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。