論文の概要: Exploring an LM to generate Prolog Predicates from Mathematics Questions
- arxiv url: http://arxiv.org/abs/2309.03667v2
- Date: Fri, 8 Sep 2023 03:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 10:56:11.997605
- Title: Exploring an LM to generate Prolog Predicates from Mathematics Questions
- Title(参考訳): 算数問題から Prolog 述語を生成する LM の探索
- Authors: Xiaocheng Yang, Yik-Cheung Tam
- Abstract要約: 大規模言語モデルは、推論を必要とする数学の問題を解く際に、しばしば性能が劣る。
我々は、LLaMA7Bをベースラインモデルとし、Prologコード生成のための他の微調整LLaMA7Bモデルを開発する。
その結果,Prolog生成モデルがベースラインを超える一方で,組み合わせ生成モデルでは大幅な改善が得られないことが判明した。
- 参考スコア(独自算出の注目度): 2.9034009034967134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a surge in interest in NLP driven by ChatGPT.
ChatGPT, a transformer-based generative language model of substantial scale,
exhibits versatility in performing various tasks based on natural language.
Nevertheless, large language models often exhibit poor performance in solving
mathematics questions that require reasoning. Prior research has demonstrated
the effectiveness of chain-of-thought prompting in enhancing reasoning
capabilities. Now, we aim to investigate whether fine-tuning a model for the
generation of Prolog codes, a logic language, and subsequently passing these
codes to a compiler can further improve accuracy. Consequently, we employ
chain-of-thought to fine-tune LLaMA7B as a baseline model and develop other
fine-tuned LLaMA7B models for the generation of Prolog code, Prolog code +
chain-of-thought, and chain-of-thought + Prolog code, respectively. The results
reveal that the Prolog generation model surpasses the baseline in performance,
while the combination generation models do not yield significant improvements.
The Prolog corpus based on GSM8K and the correspondingly finetuned Prolog
generation model based on LLaMA7B are released to the research community.
- Abstract(参考訳): 近年、ChatGPTによるNLPへの関心が高まっている。
ChatGPTは変圧器をベースとした大規模な生成言語モデルであり、自然言語に基づく様々なタスクの実行において多目的性を示す。
しかし、大きな言語モデルは推論を必要とする数学の問題を解くのに性能が劣ることが多い。
これまでの研究では、思考の連鎖が推論能力を高める効果を実証してきた。
そこで本研究では,Prolog コード生成モデル,論理言語を微調整し,その後コンパイラに渡すことにより,精度が向上するかどうかを検討することを目的とする。
その結果、我々はLLaMA7Bをベースラインモデルとし、Prologコードの生成、Prologコード+チェーン・オブ・思想コード+Prologコードのための他の微調整LLaMA7Bモデルを開発した。
その結果,Prolog生成モデルがベースラインを超える一方で,組み合わせ生成モデルでは大幅な改善が得られないことが判明した。
GSM8Kに基づくPrologコーパスとLLaMA7Bに基づく微調整されたProlog生成モデルを研究コミュニティにリリースする。
関連論文リスト
- TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - VerilogEval: Evaluating Large Language Models for Verilog Code
Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。
評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文 参考訳(メタデータ) (2023-09-14T09:15:34Z) - VeriGen: A Large Language Model for Verilog Code Generation [22.837558083876743]
GitHubとVerilogの教科書からコンパイルされたVerilogデータセット上に、既存のLarge Language Models(LLM)を微調整します。
ここでは、細調整されたオープンソースのCodeGen-16Bモデルにより、商用のGPT-3.5-turboモデルよりも1.1%向上した。
特に、様々な問題カテゴリにまたがって構文的に正しいVerilogコードを生成することで、事前訓練済みのVerilogコードよりも41%改善されている。
論文 参考訳(メタデータ) (2023-07-28T02:57:14Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - Benchmarking Large Language Models for Automated Verilog RTL Code
Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。
機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-13T16:34:39Z) - NeuroLogic Decoding: (Un)supervised Neural Text Generation with
Predicate Logic Constraints [75.66980495245926]
条件付きテキスト生成は、しばしば語彙的な制約を必要とする。
我々は、ニューラルネットワークモデル -- 教師付きか否かに関わらず -- がフロートテキストを生成することを可能にする、シンプルで効果的なアルゴリズムであるNeuroLogic Decodingを提案する。
この結果から,制御可能な微粒化生成のための大規模ニューラルネットワークの限界と,推論時間アルゴリズムの約束が示唆された。
論文 参考訳(メタデータ) (2020-10-24T11:55:22Z) - Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。
提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。
新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文 参考訳(メタデータ) (2020-04-22T06:03:10Z) - Exploring Neural Models for Parsing Natural Language into First-Order
Logic [10.62143644603835]
英文を1次論理(FOL)に解析する際のニューラルモデルの有用性について検討する。
自然言語文が与えられた場合のシーケンスマッピングタスクとしてFOL解析をモデル化し、LSTMを用いて中間表現に符号化し、次に対応するFOL式で述語を逐次生成するデコーダを用いる。
論文 参考訳(メタデータ) (2020-02-16T09:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。