論文の概要: On Mitigating Code LLM Hallucinations with API Documentation
- arxiv url: http://arxiv.org/abs/2407.09726v1
- Date: Sat, 13 Jul 2024 00:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:08:35.974687
- Title: On Mitigating Code LLM Hallucinations with API Documentation
- Title(参考訳): APIドキュメンテーションによるLLM幻覚の緩和について
- Authors: Nihal Jain, Robert Kwiatkowski, Baishakhi Ray, Murali Krishna Ramanathan, Varun Kumar,
- Abstract要約: CloudAPIBenchは、API幻覚の発生を測定するために設計された新しいベンチマークである。
提案手法により,低周波API性能と高周波API性能のバランスが向上することを示す。
- 参考スコア(独自算出の注目度): 22.933186524255593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we address the issue of API hallucinations in various software engineering contexts. We introduce CloudAPIBench, a new benchmark designed to measure API hallucination occurrences. CloudAPIBench also provides annotations for frequencies of API occurrences in the public domain, allowing us to study API hallucinations at various frequency levels. Our findings reveal that Code LLMs struggle with low frequency APIs: for e.g., GPT-4o achieves only 38.58% valid low frequency API invocations. We demonstrate that Documentation Augmented Generation (DAG) significantly improves performance for low frequency APIs (increase to 47.94% with DAG) but negatively impacts high frequency APIs when using sub-optimal retrievers (a 39.02% absolute drop). To mitigate this, we propose to intelligently trigger DAG where we check against an API index or leverage Code LLMs' confidence scores to retrieve only when needed. We demonstrate that our proposed methods enhance the balance between low and high frequency API performance, resulting in more reliable API invocations (8.20% absolute improvement on CloudAPIBench for GPT-4o).
- Abstract(参考訳): 本研究では,様々なソフトウェア工学の文脈におけるAPI幻覚の問題に対処する。
CloudAPIBenchは、API幻覚の発生を測定するために設計された新しいベンチマークである。
CloudAPIBenchはまた、パブリックドメインにおけるAPI発生頻度のアノテーションを提供しており、様々な周波数レベルでAPI幻覚を研究することができます。
例えば、GPT-4oは38.58%の有効な低周波API呼び出ししか達成していない。
ドキュメンテーション拡張ジェネレーション(DAG)は低周波APIの性能(DAGでは47.94%に向上)を著しく向上するが、サブ最適レトリバー(39.02%絶対降下)を使用する場合の高周波APIに悪影響を及ぼすことを示した。
これを軽減するため,APIインデックスに対するチェックやCode LLMsの信頼性スコアを利用したDAGをインテリジェントにトリガして,必要な時にのみ検索する手法を提案する。
提案手法は低周波API性能と高周波API性能のバランスを向上し,より信頼性の高いAPI呼び出しを実現している(GPT-4o用CloudAPIBenchの8.20%の絶対改善)。
関連論文リスト
- FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。
大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文 参考訳(メタデータ) (2024-07-10T15:52:44Z) - A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - Compositional API Recommendation for Library-Oriented Code Generation [23.355509276291198]
我々は、粗粒度要求のためのAPIを推奨するために、"diide-and-conquer"戦略を採用するCAPIRを提案する。
RAPID(Documentationに基づく推奨API)とLOCG(Library-Oriented Code Generation)の2つの挑戦的なベンチマークを提示する。
これらのベンチマーク実験の結果,既存のベースラインと比較してCAPIRの有効性が示された。
論文 参考訳(メタデータ) (2024-02-29T18:27:27Z) - APIGen: Generative API Method Recommendation [16.541442856821]
APIGenは、拡張インコンテキスト学習(ICL)によるジェネレーティブAPIレコメンデーションアプローチである
APIGenは、語彙、構文、意味の観点から、プログラミングクエリに類似したポストを検索する。
推論プロセスにより、APIGenはクエリのプログラミング要件を満たすための推奨APIを提供する。
論文 参考訳(メタデータ) (2024-01-29T02:35:42Z) - De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding [18.129031749321058]
公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおける新たな最先端技術を確立した。
LLMは、主に特定のプロジェクトに存在するコードに気づいていないため、モデルが既存のAPIをうまく利用できない。
本稿では,適切なAPI参照を検索する新たな組み合わせにより,LLMの予測を基礎とするDe-Hallucinatorを提案する。
論文 参考訳(メタデータ) (2024-01-03T12:09:43Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - AlpaGasus: Training A Better Alpaca with Fewer Data [93.6949102689243]
低品質なデータを自動的に識別しフィルタリングする、シンプルで効果的なデータ選択戦略を提案する。
52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。
AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Carving UI Tests to Generate API Tests and API Specification [8.743426215048451]
APIレベルのテストは、単体レベルのテストとUIレベルの(あるいはエンドツーエンドの)テストの間で重要な役割を果たす。
既存のAPIテストツールにはAPI仕様が必要である。
WebアプリケーションのAPIレベルのテストを可能にするために,UIテストを活用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T03:53:34Z) - HAPI: A Large-scale Longitudinal Dataset of Commercial ML API
Predictions [35.48276161473216]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。
各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文 参考訳(メタデータ) (2022-09-18T01:52:16Z) - Simple Transparent Adversarial Examples [65.65977217108659]
本研究は,ロバスト性を評価するための簡易な方法として,秘密の埋め込みと透明な敵の例を紹介した。
その結果、ハイリスクなアプリケーションにAPIが使用されるという深刻な脅威が生じる。
論文 参考訳(メタデータ) (2021-05-20T11:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。