論文の概要: Framework-Aware Code Generation with API Knowledge Graph-Constructed Data: A Study on HarmonyOS
- arxiv url: http://arxiv.org/abs/2512.00380v1
- Date: Sat, 29 Nov 2025 08:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.207114
- Title: Framework-Aware Code Generation with API Knowledge Graph-Constructed Data: A Study on HarmonyOS
- Title(参考訳): API知識グラフ構築データを用いたフレームワーク対応コード生成:HarmonyOSの検討
- Authors: Mingwei Liu, Zheng Pei, Yanlin Wang, Zihao Wang, Zikang Li, Enci Lin, Xin Peng, Zibin Zheng,
- Abstract要約: APIKG4SYNはAPI指向の質問コードペアの構築にAPIナレッジグラフを活用するように設計されたフレームワークである。
APIKG4SYNを使ったHarmonyOSコード生成のための最初のベンチマークを構築した。
- 参考スコア(独自算出の注目度): 52.483888557864326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of software frameworks with limited resources (such as HarmonyOS), large language models (LLMs) often exhibit poor code generation performance because they lack sufficient exposure to such environments during pre-training. Although LLMs can usually maintain correct logical structures across programming languages, they frequently struggle when dealing with framework-specific APIs or syntax, resulting in errors. This indicates that while pre-training equips LLMs with general algorithmic capabilities, they remain unfamiliar with the distinctive syntax and API usage of underrepresented frameworks. As a result, even advanced commercial models like GPT-4o cannot reliably generate correct code without prior adaptation. To address this issue, we propose APIKG4SYN, a framework designed to exploit API knowledge graphs for the construction of API-oriented question-code pairs, specifically tailored for low-resource frameworks without requiring executable code. APIKG4SYN integrates both single-API and multi-API knowledge, where the latter is derived through uncertainty estimation (UE)-driven Monte Carlo Tree Search (MCTS), enabling the creation of a diverse and informative dataset for fine-tuning LLMs. Using HarmonyOS as a case study, we build the first benchmark for HarmonyOS code generation. Experimental results show that fine-tuning Qwen with APIKG4SYN raises pass@1 accuracy to 25.00%, compared with 17.59% for the baseline GPT model. These results confirm that API-oriented data significantly enhance LLM performance in low-resource software development scenarios.
- Abstract(参考訳): HarmonyOSのような限られたリソースを持つソフトウェアフレームワークの文脈では、大規模な言語モデル(LLM)は、事前トレーニング中にそのような環境に十分な露出がないため、コード生成性能が劣ることが多い。
LLMは通常、プログラミング言語全体の正しい論理構造を維持することができるが、フレームワーク固有のAPIや構文を扱う際にしばしば苦労し、結果としてエラーが発生する。
このことは、事前トレーニングがLLMに一般的なアルゴリズム能力を持たせる一方で、表現不足のフレームワークの独特な構文やAPI使用に慣れていないことを示している。
その結果、GPT-4oのような先進的な商用モデルでさえ、事前適応なしに正しいコードを確実に生成することはできない。
この問題に対処するために,API指向の質問コードペアの構築にAPIナレッジグラフを活用するために設計されたフレームワークであるAPIKG4SYNを提案する。
APIKG4SYNはシングルAPIとマルチAPIの知識を統合しており、後者は不確実性推定(UE)駆動のモンテカルロ木探索(MCTS)によって導出される。
HarmonyOSをケーススタディとして、HarmonyOSコード生成のための最初のベンチマークを構築しました。
実験結果から, APIKG4SYN を用いた微調整 Qwen ではパス@1 の精度が 25.00% に向上し,ベースライン GPT モデルでは 17.59% に向上した。
これらの結果から,低リソースのソフトウェア開発シナリオにおいて,API指向のデータによりLLMの性能が著しく向上することが確認された。
関連論文リスト
- Identifying and Mitigating API Misuse in Large Language Models [26.4403427473915]
大規模言語モデル(LLM)が生成するコードのAPI誤用は、ソフトウェア開発において深刻な課題となっている。
本稿では LLM 生成コードにおける API の誤用パターンについて,Python および Java 間でのメソッド選択とパラメータ使用法の両方を解析し,総合的研究を行った。
上記の分類に基づくAPI誤用に対する新しいLCMベースの自動プログラム修復手法であるDr.Fixを提案する。
論文 参考訳(メタデータ) (2025-03-28T18:43:12Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
実験の結果、ExploreaCoderは、事前のAPI知識に欠けるモデルのパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。
API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:22:09Z) - SoAy: A Solution-based LLM API-using Methodology for Academic Information Seeking [59.59923482238048]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。
本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T01:29:28Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。