論文の概要: Exploring an LM to generate Prolog Predicates from Mathematics Questions
- arxiv url: http://arxiv.org/abs/2309.03667v2
- Date: Fri, 8 Sep 2023 03:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 10:56:11.997605
- Title: Exploring an LM to generate Prolog Predicates from Mathematics Questions
- Title(参考訳): 算数問題から Prolog 述語を生成する LM の探索
- Authors: Xiaocheng Yang, Yik-Cheung Tam
- Abstract要約: 大規模言語モデルは、推論を必要とする数学の問題を解く際に、しばしば性能が劣る。
我々は、LLaMA7Bをベースラインモデルとし、Prologコード生成のための他の微調整LLaMA7Bモデルを開発する。
その結果,Prolog生成モデルがベースラインを超える一方で,組み合わせ生成モデルでは大幅な改善が得られないことが判明した。
- 参考スコア(独自算出の注目度): 2.9034009034967134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a surge in interest in NLP driven by ChatGPT.
ChatGPT, a transformer-based generative language model of substantial scale,
exhibits versatility in performing various tasks based on natural language.
Nevertheless, large language models often exhibit poor performance in solving
mathematics questions that require reasoning. Prior research has demonstrated
the effectiveness of chain-of-thought prompting in enhancing reasoning
capabilities. Now, we aim to investigate whether fine-tuning a model for the
generation of Prolog codes, a logic language, and subsequently passing these
codes to a compiler can further improve accuracy. Consequently, we employ
chain-of-thought to fine-tune LLaMA7B as a baseline model and develop other
fine-tuned LLaMA7B models for the generation of Prolog code, Prolog code +
chain-of-thought, and chain-of-thought + Prolog code, respectively. The results
reveal that the Prolog generation model surpasses the baseline in performance,
while the combination generation models do not yield significant improvements.
The Prolog corpus based on GSM8K and the correspondingly finetuned Prolog
generation model based on LLaMA7B are released to the research community.
- Abstract(参考訳): 近年、ChatGPTによるNLPへの関心が高まっている。
ChatGPTは変圧器をベースとした大規模な生成言語モデルであり、自然言語に基づく様々なタスクの実行において多目的性を示す。
しかし、大きな言語モデルは推論を必要とする数学の問題を解くのに性能が劣ることが多い。
これまでの研究では、思考の連鎖が推論能力を高める効果を実証してきた。
そこで本研究では,Prolog コード生成モデル,論理言語を微調整し,その後コンパイラに渡すことにより,精度が向上するかどうかを検討することを目的とする。
その結果、我々はLLaMA7Bをベースラインモデルとし、Prologコードの生成、Prologコード+チェーン・オブ・思想コード+Prologコードのための他の微調整LLaMA7Bモデルを開発した。
その結果,Prolog生成モデルがベースラインを超える一方で,組み合わせ生成モデルでは大幅な改善が得られないことが判明した。
GSM8Kに基づくPrologコーパスとLLaMA7Bに基づく微調整されたProlog生成モデルを研究コミュニティにリリースする。
関連論文リスト
- Benchmarking Large Language Models with Integer Sequence Generation Tasks [1.3108652488669736]
本稿では,大規模言語モデル(LLM)がオンラインシーケンス百科事典(OEIS)から整数列を計算するコードを書かなければならない,新たなベンチマークを提案する。
ベンチマークの結果、OpenAI、Anthropic、Meta、Googleの他のフロンティアモデルよりも、簡単かつハードな整数シーケンス間の精度と不正なレートで、o1シリーズのモデルの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-11-07T02:05:43Z) - CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning [23.21367081440852]
大規模言語モデル(LLM)は、スケーラブルな事前学習と高度な微調整によって、自然言語の理解と生成に大きな進歩をもたらした。
我々は,大規模なコード-参照ペアのコーパスを利用する,スケーラブルな選好モデル事前学習(PMP)パイプラインであるCodePMPを紹介する。
CodePMPは、大規模な合成コード-参照ペアの好みモデルを事前学習することで、RM微調整効率を向上する。
論文 参考訳(メタデータ) (2024-10-03T05:51:26Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Arithmetic Reasoning with LLM: Prolog Generation & Permutation [2.1867261071129125]
GSM8Kベンチマークでは,Prologに基づく算術的問題解決がCoT生成に優れていることが示されている。
我々は、データ拡張によるより堅牢なLCMトレーニングのための基礎的真理予測をパーミュレートすることを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:13:25Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - VerilogEval: Evaluating Large Language Models for Verilog Code
Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。
評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文 参考訳(メタデータ) (2023-09-14T09:15:34Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - Benchmarking Large Language Models for Automated Verilog RTL Code
Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。
機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-13T16:34:39Z) - Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。
提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。
新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文 参考訳(メタデータ) (2020-04-22T06:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。