論文の概要: Tail-aware N-version Machine Learning Models for Reliable API Recommendation
- arxiv url: http://arxiv.org/abs/2604.27647v1
- Date: Thu, 30 Apr 2026 09:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.02555
- Title: Tail-aware N-version Machine Learning Models for Reliable API Recommendation
- Title(参考訳): 信頼性の高いAPIレコメンデーションのためのTail-Aware N-version Machine Learning Model
- Authors: Aoi Matsuda, Fumio Machida, David Lo,
- Abstract要約: N-version API Recommendation (NvRec) を提案し、APIシーケンスレコメンデーションの信頼性を高める。
NvRecは利用可能なMLモデルのセットを活用し、テールプロパティを持つ個々のAPIメソッドのパフォーマンスをプロファイルする。
我々は、CodeBERT、CodeT5、MulaRec、UniXcoder、CodeT5+を含む5つのAPIレコメンデーションモデルを使用してNvRecを実装し、それを公開ベンチマークデータセットで評価する。
- 参考スコア(独自算出の注目度): 5.987965515894117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML)-based API recommendation helps developers efficiently identify suitable APIs to complement the application code. However, code datasets used to train ML models often exhibit a long-tail distribution, leading to unreliable API recommendations, especially for infrequently used API methods at the tail of the distribution. To address this issue, we propose N-version API Recommendation (NvRec), which leverages N different versions of ML models to enhance the reliability of API sequence recommendations by suppressing unreliable outputs entailing tail APIs. NvRec leverages a set of available ML models and profiles their performance on individual API methods with their tail properties. The generated model profile is used at inference time to filter out unreliable API recommendations and determine the final output. We implement NvRec using five API recommendation models, including CodeBERT, CodeT5, MulaRec, UniXcoder, and CodeT5+, and evaluate it on a public benchmark dataset constructed from compilable Java projects. For the three-version NvRec, we find that the combination of CodeT5, MulaRec, and UniXcoder achieves the highest true accept rate of 83.8%, with a rejection rate of 80.7%, when majority voting is restricted to highly reliable candidates. In contrast, the five-version configuration achieves its highest true accept rate of 83.1% with simple majority voting, while reducing the rejection rate to 69.0%. Overall, the five-version configuration offers a better balance between true accept rate and rejection rate.
- Abstract(参考訳): 機械学習(ML)ベースのAPIレコメンデーションは、開発者がアプリケーションコードを補完する適切なAPIを効率的に識別するのに役立つ。
しかしながら、MLモデルをトレーニングするために使用されるコードデータセットは、長い尾の分布を示すことが多く、信頼性の低いAPIレコメンデーションにつながります。
この問題に対処するために,N-version API Recommendation (NvRec)を提案する。N-version API Recommendation, N-version API Recommendation, N-version API Recommendation, N-version API Recommendation, N-version API Recommendation, N-version API Recommendation, N-version API Recommendation, N-version API Recommendation, N-version API Recommendation, N-version API Recommendation, N-version API Recommendation)は,MLモデルの異なるバージョンを活用して,APIシーケンスレコメンデーションの信頼性を高める。
NvRecは利用可能なMLモデルのセットを活用し、テールプロパティを持つ個々のAPIメソッドのパフォーマンスをプロファイルする。
生成されたモデルプロファイルは、信頼できないAPIレコメンデーションをフィルタリングし、最終的な出力を決定するために、推論時に使用される。
我々は、CodeBERT、CodeT5、MulaRec、UniXcoder、CodeT5+を含む5つのAPIレコメンデーションモデルを使用してNvRecを実装し、コンパイル可能なJavaプロジェクトから構築された公開ベンチマークデータセットで評価する。
3バージョンNvRecの場合、CodeT5、MulaRec、UniXcoderの組み合わせは83.8%で、過半数の投票が信頼性の高い候補に制限される場合の拒絶率は80.7%である。
対照的に、5バージョン構成は、投票率を69.0%に抑えながら、単純多数決で83.1%という真の受け入れ率を達成した。
全体として、5バージョン構成は、真の受け入れ率と拒絶率のバランスが良くなる。
関連論文リスト
- DAInfer+: Neurosymbolic Inference of API Specifications from Documentation via Embedding Models [5.950816343750315]
DAInfer+は、ライブラリドキュメントからAPI仕様を推論するための新しいアプローチである。
我々は自然言語処理(NLP)を用いて、文書によって提供される非公式な意味情報を解釈する。
我々は、正確なデータフローとエイリアス仕様を提供するニューロシンボリック最適化を提案する。
論文 参考訳(メタデータ) (2026-03-30T05:55:10Z) - Framework-Aware Code Generation with API Knowledge Graph-Constructed Data: A Study on HarmonyOS [52.483888557864326]
APIKG4SYNはAPI指向の質問コードペアの構築にAPIナレッジグラフを活用するように設計されたフレームワークである。
APIKG4SYNを使ったHarmonyOSコード生成のための最初のベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-29T08:13:54Z) - AdapTrack: Constrained Decoding without Distorting LLM's Output Intent [53.75852524070165]
言語モデルに基づくコード生成と補完ツールは、時には必要な制約を満たさないコードを生成することがある。
制約に固執するコードを生成するために、制約付き復号法が開発された。
AdapTrackは、モデルの出力インテントを歪めるのを避けるため、制約に準拠するだけでなく、モデルの出力インテントと意味的に一致した結果を生成する。
論文 参考訳(メタデータ) (2025-10-20T10:11:34Z) - Flow Matching based Sequential Recommender Model [54.815225661065924]
本研究では,フローマッチングに基づくフローマッチングモデルであるFMRecを紹介する。
FMRecは最先端の手法よりも平均6.53%改善している。
論文 参考訳(メタデータ) (2025-05-22T06:53:03Z) - Secret Breach Detection in Source Code with Large Language Models [2.5484785866796833]
ソースコードに機密情報を漏洩することは、依然として永続的なセキュリティ上の脅威である。
この研究は、大規模言語モデル(LLM)を用いたソースコードの秘密検出を強化することを目的としている。
局所展開のための細調整された小型モデルの実現可能性を評価する。
論文 参考訳(メタデータ) (2025-04-26T03:33:14Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Embedding Code Contexts for Cryptographic API Suggestion:New
Methodologies and Comparisons [9.011910726620536]
APIレコメンデーションのための新しいニューラルネットワークベースのアプローチであるMulti-HyLSTMを提案する。
プログラム分析を使用して、APIの埋め込みと推奨をガイドします。
245のテストケースの分析では、商用ツールのCodotaと比較して、トップ1の推奨精度は88.98%に達した。
論文 参考訳(メタデータ) (2021-03-15T22:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。