Fugu-MT 論文翻訳(概要): On Mitigating Code LLM Hallucinations with API Documentation

論文の概要: On Mitigating Code LLM Hallucinations with API Documentation

arxiv url: http://arxiv.org/abs/2407.09726v1
Date: Sat, 13 Jul 2024 00:16:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 21:08:35.974687
Title: On Mitigating Code LLM Hallucinations with API Documentation
Title（参考訳）: APIドキュメンテーションによるLLM幻覚の緩和について
Authors: Nihal Jain, Robert Kwiatkowski, Baishakhi Ray, Murali Krishna Ramanathan, Varun Kumar,
Abstract要約: CloudAPIBenchは、API幻覚の発生を測定するために設計された新しいベンチマークである。提案手法により,低周波API性能と高周波API性能のバランスが向上することを示す。
参考スコア（独自算出の注目度）: 22.933186524255593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we address the issue of API hallucinations in various software engineering contexts. We introduce CloudAPIBench, a new benchmark designed to measure API hallucination occurrences. CloudAPIBench also provides annotations for frequencies of API occurrences in the public domain, allowing us to study API hallucinations at various frequency levels. Our findings reveal that Code LLMs struggle with low frequency APIs: for e.g., GPT-4o achieves only 38.58% valid low frequency API invocations. We demonstrate that Documentation Augmented Generation (DAG) significantly improves performance for low frequency APIs (increase to 47.94% with DAG) but negatively impacts high frequency APIs when using sub-optimal retrievers (a 39.02% absolute drop). To mitigate this, we propose to intelligently trigger DAG where we check against an API index or leverage Code LLMs' confidence scores to retrieve only when needed. We demonstrate that our proposed methods enhance the balance between low and high frequency API performance, resulting in more reliable API invocations (8.20% absolute improvement on CloudAPIBench for GPT-4o).
Abstract（参考訳）: 本研究では,様々なソフトウェア工学の文脈におけるAPI幻覚の問題に対処する。 CloudAPIBenchは、API幻覚の発生を測定するために設計された新しいベンチマークである。 CloudAPIBenchはまた、パブリックドメインにおけるAPI発生頻度のアノテーションを提供しており、様々な周波数レベルでAPI幻覚を研究することができます。例えば、GPT-4oは38.58%の有効な低周波API呼び出ししか達成していない。ドキュメンテーション拡張ジェネレーション(DAG)は低周波APIの性能(DAGでは47.94%に向上)を著しく向上するが、サブ最適レトリバー(39.02%絶対降下)を使用する場合の高周波APIに悪影響を及ぼすことを示した。これを軽減するため,APIインデックスに対するチェックやCode LLMsの信頼性スコアを利用したDAGをインテリジェントにトリガして,必要な時にのみ検索する手法を提案する。提案手法は低周波API性能と高周波API性能のバランスを向上し,より信頼性の高いAPI呼び出しを実現している(GPT-4o用CloudAPIBenchの8.20%の絶対改善)。

関連論文リスト

APIRAT: Integrating Multi-source API Knowledge for Enhanced Code Translation with LLMs [6.522570957351905]
APIRATは、マルチソースAPI知識を統合する新しいコード翻訳手法である。 APIRATでは、APIシーケンス検索、APIシーケンスのバックトランスレーション、APIマッピングなど、API知識の拡張テクニックが3つ採用されている。実験の結果、APIRATは既存のLCMベースの手法を大幅に上回り、計算精度は4%から15.1%に向上した。
論文参考訳（メタデータ） (2025-04-21T04:24:49Z)
LLM-assisted Mutation for Whitebox API Testing [40.91007243855959]
MioHintは、LLM(Large Language Model)のコード理解機能を活用して、APIテストを促進する、新しいホワイトボックスAPIテストアプローチである。提案手法の有効性を評価するため,16の実世界のAPIサービスを対象に実験を行った。
論文参考訳（メタデータ） (2025-04-08T07:14:51Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
A Multi-Agent Approach for REST API Testing with Semantic Graphs and LLM-Driven Inputs [46.65963514391019]
私たちは、REST APIテストに依存性組み込みのマルチエージェントアプローチを採用する最初のブラックボックスフレームワークであるAutoRestTestを紹介します。 MARL(Multi-Agent Reinforcement Learning)とSPDG(Semantic Property Dependency Graph)とLLM(Large Language Models)を統合した。このアプローチでは、REST APIテストを、API、依存性、パラメータ、バリューという4つのエージェントが協力して、API探索を最適化する、分離可能な問題として扱います。
論文参考訳（メタデータ） (2024-11-11T16:20:27Z)
AutoFeedback: An LLM-based Framework for Efficient and Accurate API Request Generation [16.590226868986296]
AutoFeedbackは、効率的で正確なAPIリクエスト生成のためのフレームワークである。大規模言語モデルによるAPIリクエストの生成プロセス中に2つのフィードバックループを実装している。実際のAPIデータセットで100.00%の精度を実現し、GPT-3.5 Turboとのインタラクションコストを23.44%削減し、GPT-4 Turboを11.85%削減する。
論文参考訳（メタデータ） (2024-10-09T14:38:28Z)
SEAL: Suite for Evaluating API-use of LLMs [1.2528321519119252]
SEALは、現実世界のAPI使用時に大きな言語モデルを評価するように設計されたエンドツーエンドのテストベッドである。既存のベンチマークを標準化し、API検索と計画をテストするエージェントシステムを統合し、リアルタイムAPIの不安定性に対処する。
論文参考訳（メタデータ） (2024-09-23T20:16:49Z)
A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文参考訳（メタデータ） (2024-09-20T03:12:35Z)
FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文参考訳（メタデータ） (2024-07-18T23:44:02Z)
WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文参考訳（メタデータ） (2024-07-10T15:52:44Z)
A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文参考訳（メタデータ） (2024-05-24T02:44:14Z)
Compositional API Recommendation for Library-Oriented Code Generation [23.355509276291198]
我々は、粗粒度要求のためのAPIを推奨するために、"diide-and-conquer"戦略を採用するCAPIRを提案する。 RAPID(Documentationに基づく推奨API)とLOCG(Library-Oriented Code Generation)の2つの挑戦的なベンチマークを提示する。これらのベンチマーク実験の結果,既存のベースラインと比較してCAPIRの有効性が示された。
論文参考訳（メタデータ） (2024-02-29T18:27:27Z)
De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding [18.129031749321058]
公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおける新たな最先端技術を確立した。 LLMは、主に特定のプロジェクトに存在するコードに気づいていないため、モデルが既存のAPIをうまく利用できない。本稿では,適切なAPI参照を検索する新たな組み合わせにより,LLMの予測を基礎とするDe-Hallucinatorを提案する。
論文参考訳（メタデータ） (2024-01-03T12:09:43Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.48276161473216]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文参考訳（メタデータ） (2022-09-18T01:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。