論文の概要: Towards Mitigating API Hallucination in Code Generated by LLMs with Hierarchical Dependency Aware
- arxiv url: http://arxiv.org/abs/2505.05057v2
- Date: Tue, 20 May 2025 14:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.233262
- Title: Towards Mitigating API Hallucination in Code Generated by LLMs with Hierarchical Dependency Aware
- Title(参考訳): 階層的依存を意識したLLMによるコードにおけるAPI幻覚の緩和に向けて
- Authors: Yujia Chen, Mingyu Chen, Cuiyun Gao, Zhihan Jiang, Zhongqi Li, Yuchi Ma,
- Abstract要約: 大規模言語モデル(LLM)は自動コード生成を支援するが、しばしばAPI幻覚に悩まされる。
既存の研究は、幻覚を緩和するためのRAG(Retrieval-Augmented Generation)手法を利用している。
階層的依存を意識したLLMで生成されたコード中のAPI幻覚を緩和するフレームワークであるMARINを提案する。
- 参考スコア(独自算出の注目度): 12.82722639240208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Application Programming Interfaces (APIs) are crucial in modern software development. Large Language Models (LLMs) assist in automated code generation but often struggle with API hallucination, including invoking non-existent APIs and misusing existing ones in practical development scenarios. Existing studies resort to Retrieval-Augmented Generation (RAG) methods for mitigating the hallucination issue, but tend to fail since they generally ignore the structural dependencies in practical projects and do not indeed validate whether the generated APIs are available or not. To address these limitations, we propose MARIN, a framework for mitigating API hallucination in code generated by LLMs with hierarchical dependency aware. MARIN consists of two phases: Hierarchical Dependency Mining, which analyzes local and global dependencies of the current function, aiming to supplement comprehensive project context in LLMs input, and Dependency Constrained Decoding, which utilizes mined dependencies to adaptively constrain the generation process, aiming to ensure the generated APIs align with the projects specifications. To facilitate the evaluation of the degree of API hallucination, we introduce a new benchmark APIHulBench and two new metrics including Micro Hallucination Number (MiHN) and Macro Hallucination Rate (MaHR). Experiments on six state-of-the-art LLMs demonstrate that MARIN effectively reduces API hallucinations, achieving an average decrease of 67.52% in MiHN and 73.56% in MaHR compared to the RAG approach. Applied to Huaweis internal projects and two proprietary LLMs, MARIN achieves average decreases of 57.33% in MiHN and 59.41% in MaHR.
- Abstract(参考訳): アプリケーションプログラミングインターフェース(API)は、現代のソフトウェア開発において不可欠です。
大きな言語モデル(LLM)は、自動コード生成を支援するが、既存のAPIを呼び出したり、実践的な開発シナリオで既存のものを誤用したりするなど、API幻覚に苦慮することが多い。
既存の研究では、幻覚の問題を緩和するRetrieval-Augmented Generation(RAG)手法が採用されているが、実際的なプロジェクトの構造的依存関係を無視し、生成したAPIが利用可能かどうかを実際に検証していないため、失敗する傾向にある。
これらの制約に対処するため,LLMが階層的依存を意識したコードでAPI幻覚を緩和するフレームワークであるMARINを提案する。
階層的依存性マイニング(Hierarchical Dependency Mining)は、現在の関数のローカルおよびグローバルな依存関係を分析し、LCMの入力で包括的なプロジェクトコンテキストを補完することを目的としている。
APIの幻覚度を評価するために,新しいベンチマークAPIHulBenchとMicro Hallucination Number (MiHN) とMacro Hallucination Rate (MaHR) の2つの新しい指標を導入した。
6つの最先端LCM実験により、MARINはAPI幻覚を効果的に減らし、MIHNは67.52%、MaHRは73.56%減少することが示された。
Huaweiの内部プロジェクトと2つのLLMに適用すると、MARINは平均57.33%のMiHN、59.41%のMaHRを達成している。
関連論文リスト
- LLM-assisted Mutation for Whitebox API Testing [40.91007243855959]
MioHintは、LLM(Large Language Model)のコード理解機能を活用して、APIテストを促進する、新しいホワイトボックスAPIテストアプローチである。
提案手法の有効性を評価するため,16の実世界のAPIサービスを対象に実験を行った。
論文 参考訳(メタデータ) (2025-04-08T07:14:51Z) - Identifying and Mitigating API Misuse in Large Language Models [26.4403427473915]
大規模言語モデル(LLM)が生成するコードのAPI誤用は、ソフトウェア開発において深刻な課題となっている。
本稿では LLM 生成コードにおける API の誤用パターンについて,Python および Java 間でのメソッド選択とパラメータ使用法の両方を解析し,総合的研究を行った。
上記の分類に基づくAPI誤用に対する新しいLCMベースの自動プログラム修復手法であるDr.Fixを提案する。
論文 参考訳(メタデータ) (2025-03-28T18:43:12Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。
API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:22:09Z) - Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation [0.0]
本稿では,自然言語入力を対応するAPI呼び出しに分類するために,Large Language Models (LLM) を統合する新しいシステムを提案する。
本システムでは,単純な入力による複雑なソフトウェア機能の実行,インタラクション効率の向上,ソフトウェア利用障壁の低減を実現している。
論文 参考訳(メタデータ) (2024-09-18T04:56:52Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。
本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T01:29:28Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。