Fugu-MT 論文翻訳(概要): When LLMs Lag Behind: Knowledge Conflicts from Evolving APIs in Code Generation

論文の概要: When LLMs Lag Behind: Knowledge Conflicts from Evolving APIs in Code Generation

arxiv url: http://arxiv.org/abs/2604.09515v1
Date: Fri, 10 Apr 2026 17:37:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.982296
Title: When LLMs Lag Behind: Knowledge Conflicts from Evolving APIs in Code Generation
Title（参考訳）: LLMが遅れた時 - コード生成におけるAPIの進化と知識の衝突
Authors: Ahmed Nusayer Ashik, Shaowei Wang, Tse-Hsun Chen, Muhammad Asaduzzaman, Yuan Tian,
Abstract要約: コンテキスト・メモリ・コンフリクト(context-Memory conflict)は、モデルの内部パラメトリック知識と矛盾する場合に発生する。本稿では8つのPythonライブラリから270のリアルタイム更新のベンチマークを示す。
参考スコア（独自算出の注目度）: 12.67668690329239
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid evolution of software libraries creates a significant challenge for Large Language Models (LLMs), whose static parametric knowledge often becomes stale post-training. While retrieval-augmented generation (RAG) is commonly used to provide up-to-date API specifications, "context-memory conflict" arises when external instructions contradict a model's internal parametric knowledge. This paper presents a systematic empirical study of LLM code generation under API evolution (e.g., API deprecation, API modification, and API addition), by constructing a benchmark of 270 real-world updates from eight Python libraries. We evaluate four LLM families of 11 models. Our results show that without comprehensive documentation, LLMs struggle to prioritize external context, averaging only 42.55% of generated code examples are executable in the target environment. While structured documentation and larger model scales improve LLMs' ability to update adoption, they do not fully resolve executability issues with a low 66.36% executable rate. In addition, reasoning-based strategies (e.g., Self-Reflection) significantly boost LLMs' performance with 11% improvement on executable rate. Our findings highlight the persistence of outdated patterns from LLMs, even when API update specifications are provided, and emphasize the need for evolution-aware benchmarks and techniques.
Abstract（参考訳）: ソフトウェアライブラリの急速な進化は、静的パラメトリックな知識がトレーニング後の古いものとなることの多い、Large Language Models (LLMs) に大きな課題を生み出します。検索拡張生成(RAG)は、最新のAPI仕様を提供するために一般的に使用されるが、外部命令がモデルの内部パラメトリック知識と矛盾する場合に「コンテキストメモリ競合」が発生する。本稿では、8つのPythonライブラリから270のリアルタイム更新のベンチマークを構築することにより、API進化中のLLMコード生成(例えば、APIの非推奨化、APIの変更、APIの追加)について、体系的な実証的研究を行う。 11モデルのLLMファミリーを4種類評価した。私たちの結果は、包括的なドキュメントがなければ、LLMは外部コンテキストの優先順位付けに苦慮し、生成したコード例の42.55%がターゲット環境で実行可能であることを示しています。構造化ドキュメンテーションとより大きなモデルスケールはLLMの採用を更新する能力を改善するが、66.36%の低実行率で実行可能性の問題を完全に解決するわけではない。さらに、推論ベースの戦略(例えば、自己回帰)は、実行速度を11%改善し、LLMのパフォーマンスを著しく向上させる。この結果から,API更新仕様が提供されても,LDMの古いパターンの永続化が強調され,進化を意識したベンチマークやテクニックの必要性が強調された。

関連論文リスト

Framework-Aware Code Generation with API Knowledge Graph-Constructed Data: A Study on HarmonyOS [52.483888557864326]
APIKG4SYNはAPI指向の質問コードペアの構築にAPIナレッジグラフを活用するように設計されたフレームワークである。 APIKG4SYNを使ったHarmonyOSコード生成のための最初のベンチマークを構築した。
論文参考訳（メタデータ） (2025-11-29T08:13:54Z)
When LLMs Meet API Documentation: Can Retrieval Augmentation Aid Code Generation Just as It Helps Developers? [10.204379646375182]
Retrieval-augmented Generation (RAG) は、学習前の知識を超えて、大規模言語モデルの能力(LLM)を拡大する能力を示している。検索と生成のための新たな知識として,あまり一般的でないAPIライブラリのドキュメンテーションを使用することの有効性に影響を与える要因について検討する。
論文参考訳（メタデータ） (2025-03-19T14:08:47Z)
APILOT: Navigating Large Language Models to Generate Secure Code by Sidestepping Outdated API Pitfalls [15.865915079829943]
APILOTは、時代遅れのAPIのリアルタイム、即時更新可能なデータセットを維持している。拡張ジェネレーションメソッドを使用して、セキュアでバージョン対応のコードを生成するLLMをナビゲートする。古いコードレコメンデーションを平均89.42%削減し、パフォーマンス上のオーバーヘッドを制限できる。
論文参考訳（メタデータ） (2024-09-25T00:37:40Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
(Why) Is My Prompt Getting Worse? Rethinking Regression Testing for Evolving LLM APIs [8.403074015356594]
大規模言語モデル(LLM)はますますソフトウェアアプリケーションに統合されている。 LLMはサイレントに更新され、非推奨にされる。これはパフォーマンスの低下を引き起こし、迅速な設計選択に影響を与える可能性がある。
論文参考訳（メタデータ） (2023-11-18T17:11:12Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。