論文の概要: An Empirical Study of Large Language Models for Type and Call Graph Analysis
- arxiv url: http://arxiv.org/abs/2410.00603v1
- Date: Tue, 1 Oct 2024 11:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:47:16.888741
- Title: An Empirical Study of Large Language Models for Type and Call Graph Analysis
- Title(参考訳): タイプ・コールグラフ解析のための大規模言語モデルに関する実証的研究
- Authors: Ashwin Prasad Shivarpatna Venkatesh, Rose Sunil, Samkutty Sabu, Amir M. Mir, Sofia Reis, Eric Bodden,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学におけるその可能性のために、ますます研究されている。
本研究では,Python および JavaScript プログラムのコールグラフ解析と型推論を強化するため,現在の LLM の可能性について検討する。
我々は、OpenAIのGPTシリーズやLLaMAやMistralといったオープンソースモデルを含む24のLLMを実証的に評価した。
- 参考スコア(独自算出の注目度): 3.385461018649221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly being explored for their potential in software engineering, particularly in static analysis tasks. In this study, we investigate the potential of current LLMs to enhance call-graph analysis and type inference for Python and JavaScript programs. We empirically evaluated 24 LLMs, including OpenAI's GPT series and open-source models like LLaMA and Mistral, using existing and newly developed benchmarks. Specifically, we enhanced TypeEvalPy, a micro-benchmarking framework for type inference in Python, with auto-generation capabilities, expanding its scope from 860 to 77,268 type annotations for Python. Additionally, we introduced SWARM-CG and SWARM-JS, comprehensive benchmarking suites for evaluating call-graph construction tools across multiple programming languages. Our findings reveal a contrasting performance of LLMs in static analysis tasks. For call-graph generation in Python, traditional static analysis tools like PyCG significantly outperform LLMs. In JavaScript, the static tool TAJS underperforms due to its inability to handle modern language features, while LLMs, despite showing potential with models like mistral-large-it-2407-123b and GPT-4o, struggle with completeness and soundness in both languages for call-graph analysis. Conversely, LLMs demonstrate a clear advantage in type inference for Python, surpassing traditional tools like HeaderGen and hybrid approaches such as HiTyper. These results suggest that while LLMs hold promise in type inference, their limitations in call-graph analysis highlight the need for further research. Our study provides a foundation for integrating LLMs into static analysis workflows, offering insights into their strengths and current limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学、特に静的解析タスクにおいて、その可能性について研究されている。
本研究では,Python および JavaScript プログラムのコールグラフ解析と型推論を強化するため,現在の LLM の可能性について検討する。
我々は,OpenAI の GPT シリーズや LLaMA や Mistral などのオープンソースモデルを含む 24 個の LLM を,既存および新たに開発されたベンチマークを用いて実証的に評価した。
具体的には,Pythonの型推論のためのマイクロベンチマークフレームワークであるTypeEvalPyを拡張した。
さらに、SWARM-CGとSWARM-JSを導入し、複数のプログラミング言語にまたがるコールグラフ構築ツールを評価するための総合的なベンチマークスイートを紹介した。
この結果から,静的解析タスクにおけるLLMの対照的な性能が明らかとなった。
Python のコールグラフ生成では、PyCG のような従来の静的解析ツールが LLM を大幅に上回っている。
JavaScriptでは、静的ツールTAJSはモダンな言語機能を扱うことができないためパフォーマンスが劣るが、LLMはMistral-large-it-2407-123bやGPT-4oのようなモデルに潜在的な可能性を秘めているが、コールグラフ解析では両方の言語で完全性と健全性に苦しむ。
逆に、LLMはPythonの型推論において明らかな優位性を示し、HeaderGenのような従来のツールやHiTyperのようなハイブリッドアプローチを上回っている。
これらの結果から, LLMは型推論において有望であるが, コールグラフ解析における限界は, さらなる研究の必要性を浮き彫りにすることを示している。
我々の研究は、LSMを静的解析ワークフローに統合するための基盤を提供し、その強みと現在の限界についての洞察を提供する。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Input Conditioned Graph Generation for Language Agents [31.2175071107555]
言語エージェントをグラフとして抽象化する既存のフレームワークを用いて,学習可能な動的言語エージェントを開発する。
我々は与えられた入力に基づいて通信の流れを表すエッジを生成することを学び、それによって言語エージェントの内部通信を調整する。
提案手法は,MMLUとCMMLUを併用したデータセットにおいて,従来の静的アプローチを約6%の精度で上回り,疎度誘導損失のトレーニングでは10%以上の精度で適用できる。
論文 参考訳(メタデータ) (2024-06-17T13:53:15Z) - Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。
Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。
我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文 参考訳(メタデータ) (2024-04-09T22:03:39Z) - The Emergence of Large Language Models in Static Analysis: A First Look
through Micro-Benchmarks [3.848607479075651]
我々は,Pythonプログラムのコールグラフ解析と型推論を改善する上で,現在のLarge Language Models (LLM) が果たす役割について検討する。
本研究により, LLMは型推論において有望な結果を示し, 従来の手法よりも高い精度を示したが, コールグラフ解析では限界が認められた。
論文 参考訳(メタデータ) (2024-02-27T16:53:53Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - The Language Interpretability Tool: Extensible, Interactive
Visualizations and Analysis for NLP Models [17.423179212411263]
Language Interpretability Tool (LIT)は、NLPモデルの可視化と理解のためのオープンソースのプラットフォームである。
LITは、局所的な説明、集約分析、および反ファクト生成を、合理化されたブラウザベースのインターフェースに統合する。
論文 参考訳(メタデータ) (2020-08-12T06:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。