論文の概要: FPMoE: A Sparse Mixture-of-Experts Approach to Functional Code Generation
- arxiv url: http://arxiv.org/abs/2605.27849v1
- Date: Wed, 27 May 2026 02:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.68412
- Title: FPMoE: A Sparse Mixture-of-Experts Approach to Functional Code Generation
- Title(参考訳): FPMoE: 関数型コード生成のためのスパースミックス・オブ・エクササイズアプローチ
- Authors: Loc Pham, Lang Hong Nguyet Anh, Thanh Le-Cong,
- Abstract要約: FPMoE(FPMoE)は、3つの言語固有のルートエキスパートを持つスパースMixture-of-Experts(MoE)アーキテクチャ上に構築された軽量なオープンソースコード生成モデルである。
この設計では、両方の障害モードを同時に解決する。専門の専門家は干渉を排除し、共有専門家は言語ごとのモデルが見逃す抽象化を保存する。
FPEvalでは、FPMoEは微調整されたベースラインを大幅に上回り、3Bのアクティブパラメータしか持たず、はるかに大きなモデルの性能に匹敵する。
- 参考スコア(独自算出の注目度): 1.863249299570084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid progress in LLM-based code generation, existing models are predominantly trained on imperative languages, leaving functional programming languages (FPLs) such as Haskell, OCaml, and Scala chronically underexplored, with even frontier models performing substantially worse on FPLs. Fine-tuning is a natural remedy, but our experiments show that per-language fine-tuning fails to capture shared functional abstractions, while merged multi-language fine-tuning introduces cross-language interference. To address this, we introduce FPMoE, a lightweight, open-source code generation model built on a sparse Mixture-of-Experts (MoE) architecture with three language-specific routed experts (one each for Haskell, OCaml, and Scala) and a shared expert that captures cross-language functional patterns such as monadic reasoning and type-directed programming. This design resolves both failure modes simultaneously: dedicated experts eliminate interference, while the shared expert preserves abstractions that per-language models miss. On FPEval, FPMoE substantially outperforms fine-tuned baselines and, with only 3B active parameters, matches the performance of much larger models including DeepSeek-Coder-6.7B, Qwen2.5-Coder-14B-Instruct, and Qwen3-Coder-30B-A3B.
- Abstract(参考訳): LLMベースのコード生成の急速な進歩にもかかわらず、既存のモデルは命令型言語で主に訓練されており、Haskell、OCaml、Scalaといった関数型プログラミング言語(FPL)は慢性的に過小評価され、FPLではフロンティアモデルでさえ著しく悪化している。
ファインチューニングは自然な治療法だが、我々の実験では、言語ごとのファインチューニングは共通の機能的抽象化を捉えることができず、マルチ言語ファインチューニングは言語間干渉をもたらす。
この問題に対処するため、FPMoEは、スパース・ミックス・オブ・エクササイズ(MoE)アーキテクチャ上に構築された軽量でオープンソースのコード生成モデルで、3つの言語固有のルーティングエキスパート(Haskell、OCaml、Scalaの各言語)と、モナディック推論や型指向プログラミングといった言語間の機能パターンをキャプチャする共有専門家を伴って、FPMoEを紹介します。
この設計では、両方の障害モードを同時に解決する。専門の専門家は干渉を排除し、共有専門家は言語ごとのモデルが見逃す抽象化を保存する。
FPEvalでは、FPMoEは微調整されたベースラインを大幅に上回り、3Bのアクティブパラメータしか持たず、DeepSeek-Coder-6.7B、Qwen2.5-Coder-14B-Instruct、Qwen3-Coder-30B-A3Bなど、はるかに大きなモデルのパフォーマンスに匹敵する。
関連論文リスト
- MultiHaluDet: Multilingual Hallucination Detection via LLM Hidden State Probing [1.3700362496838856]
大規模言語モデル(LLM)における幻覚は、信頼性の高いデプロイメントにとって重要な障壁である。
多言語幻覚を検出する新しい3段階積み重ねフレームワークであるMultiHaluDetを紹介する。
本フレームワークは,HluEvalおよびTriviaQAベンチマークで98.55%のAUROCに到達し,最先端検出性能を実現する。
論文 参考訳(メタデータ) (2026-05-24T07:50:03Z) - Less Is More: Measuring How LLM Involvement affects Chatbot Accuracy in Static Analysis [2.335152769484958]
大規模言語モデルは、自然言語を通して静的解析ツールにアクセスできるようにするために、ますます使われている。
自然言語をJoernのクエリ言語cpgqlに変換するために,LLMの関与範囲に沿って3つのアーキテクチャを比較した。
これらは、3つの複雑性層にわたる20のコード解析タスクのベンチマークで評価される。
論文 参考訳(メタデータ) (2026-04-23T14:51:18Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - PLSemanticsBench: Large Language Models As Programming Language Interpreters [31.611330217819713]
大規模言語モデル(LLMs)がコード推論に長けているため、自然な疑問が生じる: LLMはプログラム(つまり、インタプリタとして振舞う)を純粋にプログラミング言語の形式的意味論に基づいて実行できるか?
本稿では, 命令型言語IMPを用いて, 小ステップ操作意味論 (SOS) と書き直しに基づく操作意味論 (K-semantics) によって定式化されている問題について検討する。
本稿では,Human-Written,LLM-Translated,Fuzzer-Generatedの3つの評価セットを提案する。
論文 参考訳(メタデータ) (2025-10-03T18:23:26Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。