論文の概要: LLASP: Fine-tuning Large Language Models for Answer Set Programming
- arxiv url: http://arxiv.org/abs/2407.18723v1
- Date: Fri, 26 Jul 2024 13:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 13:21:06.902518
- Title: LLASP: Fine-tuning Large Language Models for Answer Set Programming
- Title(参考訳): LLASP: 解集合プログラミングのための微調整された大規模言語モデル
- Authors: Erica Coppolillo, Francesco Calimeri, Giuseppe Manco, Simona Perri, Francesco Ricca,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成を含む様々な自然言語処理タスクにおいて、その可能性を示した。
基本的なASPプログラムパターンをエンコードするように特別に訓練された、微調整された軽量モデルであるLLASPを提案する。
LLASP が生成する ASP プログラムの品質が顕著であることを示す実験を行った。
- 参考スコア(独自算出の注目度): 6.261151680007598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Large Language Models (LLMs) have showcased their potential in various natural language processing tasks, including code generation. However, while significant progress has been made in adapting LLMs to generate code for several imperative programming languages and tasks, there remains a notable gap in their application to declarative formalisms, such as Answer Set Programming (ASP). In this paper, we move a step towards exploring the capabilities of LLMs for ASP code generation. First, we perform a systematic evaluation of several state-of-the-art LLMs. Despite their power in terms of number of parameters, training data and computational resources, empirical results demonstrate inadequate performances in generating correct ASP programs. Therefore, we propose LLASP, a fine-tuned lightweight model specifically trained to encode fundamental ASP program patterns. To this aim, we create an ad-hoc dataset covering a wide variety of fundamental problem specifications that can be encoded in ASP. Our experiments demonstrate that the quality of ASP programs generated by LLASP is remarkable. This holds true not only when compared to the non-fine-tuned counterpart but also when compared to the majority of eager LLM candidates, particularly from a semantic perspective. All the code and data used to perform the experiments are publicly available at https://anonymous.4open.science/r/LLASP-D86C/.
- Abstract(参考訳): 最近、LLM(Large Language Models)は、コード生成を含む様々な自然言語処理タスクにおいて、その可能性を示した。
しかしながら、いくつかの命令型プログラミング言語やタスクのコードを生成するためにLLMを適用する際には大きな進歩があったが、Answer Set Programming (ASP.NET)のような宣言型形式への適用には注目すべきギャップが残っている。
本稿では,ASP コード生成のための LLM の機能について検討する。
まず,いくつかの最先端LCMの系統的評価を行う。
パラメータ数、トレーニングデータ、計算リソースの点で力があるにもかかわらず、実験結果は正しいASPプログラムを生成するのに不十分な性能を示す。
そこで我々は,基本的なASPプログラムパターンをエンコードするように特別に訓練された,微調整された軽量モデルであるLLASPを提案する。
この目的のために、ASP.NETでエンコードできる様々な基本的な問題仕様をカバーするアドホックなデータセットを作成します。
LLASP が生成する ASP プログラムの品質が顕著であることを示す実験を行った。
これは、非微調整の候補と比べるだけでなく、熱心にLLM候補の大多数、特に意味論の観点から比較した場合にも当てはまる。
実験に使われたコードとデータはhttps://anonymous.4open.science/r/LLASP-D86C/で公開されている。
関連論文リスト
- Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Benchmarking Large Language Model Capabilities for Conditional
Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。
PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:59:40Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。