論文の概要: The Emergence of Large Language Models in Static Analysis: A First Look
through Micro-Benchmarks
- arxiv url: http://arxiv.org/abs/2402.17679v1
- Date: Tue, 27 Feb 2024 16:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:26:58.844533
- Title: The Emergence of Large Language Models in Static Analysis: A First Look
through Micro-Benchmarks
- Title(参考訳): 静的解析における大規模言語モデルの出現--マイクロベンチマークによる初見
- Authors: Ashwin Prasad Shivarpatna Venkatesh, Samkutty Sabu, Amir M. Mir, Sofia
Reis, Eric Bodden
- Abstract要約: 我々は,Pythonプログラムのコールグラフ解析と型推論を改善する上で,現在のLarge Language Models (LLM) が果たす役割について検討する。
本研究により, LLMは型推論において有望な結果を示し, 従来の手法よりも高い精度を示したが, コールグラフ解析では限界が認められた。
- 参考スコア(独自算出の注目度): 3.848607479075651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of Large Language Models (LLMs) in software engineering,
particularly in static analysis tasks, represents a paradigm shift in the
field. In this paper, we investigate the role that current LLMs can play in
improving callgraph analysis and type inference for Python programs. Using the
PyCG, HeaderGen, and TypeEvalPy micro-benchmarks, we evaluate 26 LLMs,
including OpenAI's GPT series and open-source models such as LLaMA. Our study
reveals that LLMs show promising results in type inference, demonstrating
higher accuracy than traditional methods, yet they exhibit limitations in
callgraph analysis. This contrast emphasizes the need for specialized
fine-tuning of LLMs to better suit specific static analysis tasks. Our findings
provide a foundation for further research towards integrating LLMs for static
analysis tasks.
- Abstract(参考訳): ソフトウェア工学、特に静的解析タスクにおける大規模言語モデル(llm)の適用は、この分野におけるパラダイムシフトを表している。
本稿では,現在のLLMがPythonプログラムのコールグラフ解析と型推論の改善に果たす役割について検討する。
pycg, headergen, typeevalpyマイクロベンチマークを用いて,openaiのgptシリーズやllamaなどのオープンソースモデルを含む26のllmを評価した。
本研究により, LLMは型推論において有望な結果を示し, 従来の手法よりも高い精度を示した。
このコントラストは、特定の静的解析タスクに適合するためにllmの特別な微調整が必要であることを強調する。
本研究は,静的解析タスクのためのLCMの統合に向けたさらなる研究の基盤となる。
関連論文リスト
- Feasibility Study for Supporting Static Malware Analysis Using LLM [0.8057006406834466]
大規模言語モデル(LLM)はより進歩し、広く普及している。
本研究は,静的解析を支援するためにLLMを使用できるかどうかに焦点を当てる。
論文 参考訳(メタデータ) (2024-11-22T13:03:07Z) - An Empirical Study of Large Language Models for Type and Call Graph Analysis [3.385461018649221]
大規模言語モデル(LLM)は、ソフトウェア工学におけるその可能性のために、ますます研究されている。
本研究では,Python および JavaScript プログラムのコールグラフ解析と型推論を強化するため,現在の LLM の可能性について検討する。
我々は、OpenAIのGPTシリーズやLLaMAやMistralといったオープンソースモデルを含む24のLLMを実証的に評価した。
論文 参考訳(メタデータ) (2024-10-01T11:44:29Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - Benchmarking Large Language Models for Molecule Prediction Tasks [7.067145619709089]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。
LLMは分子予測タスクを効果的に扱えるのか?
6つの標準分子データセットの分類および回帰予測タスクを同定する。
テキストベースのモデルと、分子の幾何学的構造を分析するために特別に設計されたモデルを含む、既存の機械学習(ML)モデルと比較する。
論文 参考訳(メタデータ) (2024-03-08T05:59:56Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。
ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。
In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文 参考訳(メタデータ) (2023-10-23T17:05:59Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。