論文の概要: DAInfer+: Neurosymbolic Inference of API Specifications from Documentation via Embedding Models
- arxiv url: http://arxiv.org/abs/2603.28060v1
- Date: Mon, 30 Mar 2026 05:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.247279
- Title: DAInfer+: Neurosymbolic Inference of API Specifications from Documentation via Embedding Models
- Title(参考訳): DAInfer+: 埋め込みモデルによるドキュメンテーションからのAPI仕様のニューロシンボリック推論
- Authors: Maryam Masoudian, Anshunkang Zhou, Chengpeng Wang, Charles Zhang,
- Abstract要約: DAInfer+は、ライブラリドキュメントからAPI仕様を推論するための新しいアプローチである。
我々は自然言語処理(NLP)を用いて、文書によって提供される非公式な意味情報を解釈する。
我々は、正確なデータフローとエイリアス仕様を提供するニューロシンボリック最適化を提案する。
- 参考スコア(独自算出の注目度): 5.950816343750315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern software systems heavily rely on various libraries, which require understanding the API semantics in static analysis. However, summarizing API semantics remains challenging due to complex implementations or unavailable library code. This paper presents DAInfer+, a novel approach for inferring API specifications from library documentation. We employ Natural Language Processing (NLP) to interpret informal semantic information provided by the documentation, which enables us to reduce the specification inference to an optimization problem. Specifically, we investigate the effectiveness of sentence embedding models and Large Language Models (LLMs) in deriving memory operation abstractions from API descriptions. These abstractions are used to retrieve data-flow and aliasing relations to generate comprehensive API specifications. To solve the optimization problem efficiently, we propose neurosymbolic optimization, yielding precise data-flow and aliasing specifications. Our evaluation of popular Java libraries shows that zero-shot sentence embedding models outperform few-shot prompted LLMs in robustness, capturing fine-grained semantic nuances more effectively. While our initial attempts using two-stage LLM prompting yielded promising results, we found that the embedding-based approach proved superior. Specifically, these models achieve over 82% recall and 85% precision for data-flow inference and 88% recall and 79% precision for alias relations, all within seconds. These results demonstrate the practical value of DAInfer+ in library-aware static analysis.
- Abstract(参考訳): 現代のソフトウェアシステムは様々なライブラリに大きく依存しており、静的解析においてAPIの意味を理解する必要がある。
しかし、複雑な実装や利用できないライブラリコードのために、APIセマンティクスの要約は依然として難しい。
本稿では,ライブラリドキュメンテーションからAPI仕様を推論する新しいアプローチであるDAInfer+を提案する。
本論文では,自然言語処理(NLP)を用いて,文書から提供される非公式な意味情報を解釈し,最適化問題への仕様推論の低減を図る。
具体的には,文埋め込みモデルとLarge Language Models (LLMs) が,API記述からメモリ操作の抽象化を導出する際の有効性について検討する。
これらの抽象化は、包括的なAPI仕様を生成するために、データフローの検索とリレーションのエイリアスに使用される。
最適化問題を効率的に解くため、我々は正確なデータフローとエイリアス仕様を出力するニューロシンボリック最適化を提案する。
一般的なJavaライブラリを評価したところ、ゼロショットの文埋め込みモデルでは、LLMが頑健で、よりきめ細かなセマンティックなニュアンスをより効果的に捉えている。
2段階のLSMプロンプトを用いた最初の試みは有望な結果を得たが, 埋め込み型アプローチの方が優れていることがわかった。
具体的には、これらのモデルは、データフロー推論の82%以上のリコールと85%の精度、リコールの88%、エイリアス関係の79%の精度を、すべて数秒で達成する。
これらの結果は,ライブラリを意識した静的解析におけるDAInfer+の実用的価値を示している。
関連論文リスト
- DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。
dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。
モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文 参考訳(メタデータ) (2026-02-13T02:18:14Z) - Improving Deep Learning Library Testing with Machine Learning [40.21709249669499]
機械学習(ML)を用いて入力妥当性を判定する。
形状関係は、具体的な入力とデータのキャプチャを符号化するための正確な抽象化である。
ML強化入力分類は,DLライブラリテストの大規模化に有効であることを示す。
論文 参考訳(メタデータ) (2026-02-03T17:19:01Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。
本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T01:29:28Z) - LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。
問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。
LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文 参考訳(メタデータ) (2024-02-16T15:21:35Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。