論文の概要: Perish or Flourish? A Holistic Evaluation of Large Language Models for Code Generation in Functional Programming
- arxiv url: http://arxiv.org/abs/2601.02060v1
- Date: Mon, 05 Jan 2026 12:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.061673
- Title: Perish or Flourish? A Holistic Evaluation of Large Language Models for Code Generation in Functional Programming
- Title(参考訳): パーリッシュかフルリッシュか? 関数型プログラミングにおけるコード生成のための大規模言語モデルの完全性評価
- Authors: Nguyet-Anh H. Lang, Eric Lang, Thanh Le-Cong, Bach Le, Quyet-Thang Huynh,
- Abstract要約: FPEvalは、Haskell、Ocaml、Scalaの3つの主要なプログラミング言語における3つの困難レベルにわたる721のプログラミングタスクの新しいベンチマークである。
このフレームワークを用いて,関数型プログラミング言語とJavaにおけるコード生成のための,最先端の大規模言語モデル(LLM)を評価する。
- 参考スコア(独自算出の注目度): 3.2230833657560503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Functional programming provides strong foundations for developing reliable and secure software systems, yet its adoption remains not widespread due to the steep learning curve. Recent advances in Large Language Models (LLMs) for code generation present new opportunities to lower these barriers. However, extensive evaluations of LLMs largely focus on imperative programming languages, and their capabilities in functional programming languages (FP) remain underexplored. To address this gap, we introduce FPEval, a holistic evaluation framework built on FPBench, a new benchmark of 721 programming tasks across three difficulty levels on three mainstream FP languages: Haskell, Ocaml and Scala. FPEval provides compehensive evaluation infrastructures with both test validations with comprehensive test suites and static analysis tools to assess both functional correctness and code style and maintainability. Using this framework, we evaluate state-of-the-art LLMs, including GPT-3.5, GPT-4o, and GPT-5, for code generation in functional programming languages and Java as an imperative baseline. Our results demonstrate that LLM performance in functional programming improves substantially with model advancement; however, error rates remain significantly higher in purely functional languages (Haskell and OCaml) than in hybrid (Scala) or imperative (Java) languages. Moreover, LLMs frequently generate non-idiomatic functional code that follows imperative patterns, raising concerns about code style and long-term maintainability. Finally, we show that LLMs can partially self-repair both correctness and quality issues when provided with static analysis feedback and hand-crafted instructions for common types of issues.
- Abstract(参考訳): 関数型プログラミングは、信頼性が高くセキュアなソフトウェアシステムを開発するための強力な基盤を提供するが、学習曲線の急激さのため、その採用は広まっていない。
コード生成のための大規模言語モデル(LLM)の最近の進歩は、これらの障壁を低くする新たな機会を提供する。
しかし、LLMの広範な評価は命令型プログラミング言語に重点を置いており、関数型プログラミング言語(FP)の能力はいまだに未熟である。
このギャップに対処するために、FPEvalという、FPBench上に構築された総合的な評価フレームワークを紹介します。これは、Haskell、Ocaml、Scalaの3つの主要なFP言語における3つの困難レベルにわたる721のプログラミングタスクの新しいベンチマークです。
FPEvalは、総合的なテストスイートを備えたテスト検証と、機能的正確性とコードスタイル、保守性の両方を評価する静的解析ツールを備えた、統合的な評価インフラストラクチャを提供する。
本稿では,GPT-3.5,GPT-4o,GPT-5といった最先端のLCMを用いて,関数型プログラミング言語とJavaのコード生成を命令型ベースラインとして評価する。
関数型プログラミングにおけるLLMの性能はモデル進行とともに大幅に向上することを示したが、純粋関数型言語(Haskell と OCaml)ではハイブリッド言語(Scala)や命令型言語(Java)よりもエラー率が有意に高いままである。
さらに、LLMは命令型パターンに従う非慣用的な機能コードを生成することが多く、コードスタイルや長期の保守性に対する懸念が高まる。
最後に,LLMは静的な解析フィードバックと手作りによる一般的な問題に対する指示を与えると,その正しさと品質の問題の両方を部分的に自己修復できることを示す。
関連論文リスト
- MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - Unlocking LLM Repair Capabilities Through Cross-Language Translation and Multi-Agent Refinement [7.123851886006864]
本稿では,新しい言語間プログラム修復手法 LANTERN を提案する。
提案手法は,LLMが弱い補修能力を示す言語から,より強力な性能を示す言語へ,欠陥コードを戦略的に翻訳する。
我々は,11言語にまたがる5,068のバグを含む総合的な多言語ベンチマークであるxCodeEvalについて評価を行った。
論文 参考訳(メタデータ) (2025-03-28T15:15:56Z) - Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。
LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。
しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文 参考訳(メタデータ) (2024-02-22T03:51:34Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。