論文の概要: APRIL: API Synthesis with Automatic Prompt Optimization and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25196v1
- Date: Fri, 29 Aug 2025 19:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.804491
- Title: APRIL: API Synthesis with Automatic Prompt Optimization and Reinforcement Learning
- Title(参考訳): APRIL: 自動プロンプト最適化と強化学習によるAPI合成
- Authors: Hua Zhong, Shan Jiang, Sarfraz Khurshid,
- Abstract要約: APRILは,大規模言語モデルとAPO(Automatic Prompt Optimization)とRLVR(Reinforcement Learning from Verifiable Rewards)を組み合わせた。
APOは凍結モデルのプロンプトを反復的に洗練し、RLVRは機能的正しさに対するポリシーを微調整し、効率的な合成パイプラインを生成する。
広く使われている科学的なPythonライブラリから81の現実世界のAPIを評価する。
- 参考スコア(独自算出の注目度): 3.4539093004126915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: APIs are central to modern software development, yet composing new APIs from large libraries is difficult due to the exponential search space; traditional component-based synthesis relies on costly exploration and hand-crafted specifications. While large language models (LLMs) can generate implementations from natural language, hallucinations and limited access to up-to-date contextual information often yield incorrect code. In this paper, we present APRIL, an approach that combines LLM-based synthesis with Automatic Prompt Optimization (APO) and Reinforcement Learning from Verifiable Rewards (RLVR): APO iteratively refines prompts for a frozen model, while RLVR fine-tunes the policy toward functional correctness, producing an efficient synthesis pipeline. Evaluated on 81 real-world APIs from widely used scientific Python libraries and benchmarked against instruction-tuned but unfine-tuned LLMs guided by expert prompts, APRIL achieves substantial improvements. These results indicate that integrating APO and RLVR provides a robust, scalable path for component-based API synthesis in large libraries.
- Abstract(参考訳): APIは現代のソフトウェア開発の中心であるが、指数関数的な検索空間のため、大規模なライブラリから新しいAPIを構築するのは難しい。
大きな言語モデル(LLM)は自然言語から実装を生成することができるが、幻覚や最新の文脈情報への限られたアクセスは、しばしば誤ったコードを生成する。
本稿では,LLMに基づく合成と自動プロンプト最適化(APO)を併用したAPRILを提案する。APOは凍結モデルのプロンプトを反復的に洗練し,RLVRは機能的正しさに対するポリシーを微調整し,効率的な合成パイプラインを生成する。
広く使われている科学的なPythonライブラリから81の現実世界のAPIを評価し、専門家のプロンプトによってガイドされる命令チューニングされているが、未修正のLLMに対してベンチマークを行い、APRILは大幅に改善された。
これらの結果は、APOとRLVRの統合は、大規模ライブラリにおけるコンポーネントベースのAPI合成のための堅牢でスケーラブルなパスを提供することを示している。
関連論文リスト
- Pel, A Programming Language for Orchestrating AI Agents [1.223779595809275]
Pelは関数/ツール呼び出しと直接コード生成のギャップを埋めるために設計された新しいプログラミング言語である。
Lisp、Elixir、Gleam、Haskellの強みに触発されたPelは、構文的にシンプルで、ホモシニックで、セマンティックにリッチなプラットフォームを提供する。
主な特徴は、線形合成のための強力な配管機構、簡単な部分的アプリケーションと機能パターンを可能にするファーストクラスクロージャ、LLMが評価する自然言語条件のビルトインサポート、Common Lispスタイルの再起動を備えた高度なRead-Eval-Print-Loop(REPeL)、自動化のためのLLMベースのヘルパーエージェントである。
論文 参考訳(メタデータ) (2025-04-03T18:46:53Z) - An approach for API synthesis using large language models [5.222592525740847]
本稿では,大規模言語モデル(LLM)をAPI合成に利用する新しいアプローチを提案する。
LLMは開発者の洞察を捉えるための基盤技術を提供し、より効果的なAPI合成を可能にするための理想的なフレームワークを提供する。
135個の実世界のプログラミングタスクを用いて,本手法を実験的に評価し,最先端のAPI合成ツールであるFrAngelと比較した。
論文 参考訳(メタデータ) (2025-02-21T06:42:20Z) - Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation [0.0]
本稿では,自然言語入力を対応するAPI呼び出しに分類するために,Large Language Models (LLM) を統合する新しいシステムを提案する。
本システムでは,単純な入力による複雑なソフトウェア機能の実行,インタラクション効率の向上,ソフトウェア利用障壁の低減を実現している。
論文 参考訳(メタデータ) (2024-09-18T04:56:52Z) - Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。
本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T01:29:28Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。