Fugu-MT 論文翻訳(概要): A Case Study of Large Language Models (ChatGPT and CodeBERT) for Security-Oriented Code Analysis

論文の概要: A Case Study of Large Language Models (ChatGPT and CodeBERT) for Security-Oriented Code Analysis

arxiv url: http://arxiv.org/abs/2307.12488v4
Date: Wed, 1 May 2024 18:26:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 22:30:00.648902
Title: A Case Study of Large Language Models (ChatGPT and CodeBERT) for Security-Oriented Code Analysis
Title（参考訳）: セキュリティ指向コード解析のための大規模言語モデル(ChatGPT, CodeBERT)の一事例
Authors: Zhilong Wang, Lan Zhang, Chen Cao, Nanqing Luo, Peng Liu,
Abstract要約: 代表的なLLMであるChatGPTとCodeBertに着目し,典型的な解析課題の解法における性能評価を行った。本研究は,コードから高レベルのセマンティクスを学習する上でのLLMの効率を実証し,ChatGPTをセキュリティ指向のコンテキストにおける潜在的資産として位置づけた。明確に定義された変数や関数名への強い依存など、特定の制限を認識することが不可欠であり、匿名コードから学べない。
参考スコア（独自算出の注目度）: 8.636631256751905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs can be used on code analysis tasks like code review, vulnerabilities analysis and etc. However, the strengths and limitations of adopting these LLMs to the code analysis are still unclear. In this paper, we delve into LLMs' capabilities in security-oriented program analysis, considering perspectives from both attackers and security analysts. We focus on two representative LLMs, ChatGPT and CodeBert, and evaluate their performance in solving typical analytic tasks with varying levels of difficulty. Our study demonstrates the LLM's efficiency in learning high-level semantics from code, positioning ChatGPT as a potential asset in security-oriented contexts. However, it is essential to acknowledge certain limitations, such as the heavy reliance on well-defined variable and function names, making them unable to learn from anonymized code. For example, the performance of these LLMs heavily relies on the well-defined variable and function names, therefore, will not be able to learn anonymized code. We believe that the concerns raised in this case study deserve in-depth investigation in the future.
Abstract（参考訳）: LLMはコードレビューや脆弱性分析などのコード解析タスクに使用することができる。しかし、これらのLSMをコード解析に適用する強みと限界はいまだに不明である。本稿では,セキュリティ指向プログラム分析におけるLLMの能力について,攻撃者やセキュリティアナリストの視点から検討する。本稿では,ChatGPT と CodeBert の2つの代表的 LLM に着目し,その性能評価を行った。本研究は,コードから高レベルのセマンティクスを学習する上でのLLMの効率を実証し,ChatGPTをセキュリティ指向のコンテキストにおける潜在的資産として位置づけた。しかし、明確に定義された変数や関数名に大きく依存するなど、特定の制限を認識することが不可欠であり、匿名コードから学べない。例えば、これらのLLMのパフォーマンスは、よく定義された変数と関数名に大きく依存しているため、匿名コードを学ぶことはできない。このケーススタディで提起された懸念は、将来的には詳細な調査に値すると我々は信じている。

関連論文リスト

On Code-Induced Reasoning in LLMs [21.875805779552564]
並列命令データセットを10のプログラミング言語で構築する。コードの構造的・意味的特性を選択的に破壊する制御摂動を適用する。以上の結果から,LLMは意味論的よりも構造的摂動に弱いことが示唆された。
論文参考訳（メタデータ） (2025-09-25T19:57:36Z)
The Fools are Certain; the Wise are Doubtful: Exploring LLM Confidence in Code Completion [4.215010577170175]
コードパープレキシティの測定により,コード生成時のLLM(Large Language Models)の信頼性を評価する。強い型付け言語は動的型付け言語よりも難易度が低いことがわかった。 Perlは難易度が普遍的に高いが、Javaは低いように見える。
論文参考訳（メタデータ） (2025-08-22T06:51:13Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Do Code LLMs Do Static Analysis? [2.4401219403555814]
本稿では,コード要約や生成などのコードインテリジェンスタスクにおいて,LLMの静的解析能力について検討する。 3つの静的解析タスク(コールグラフ生成、AST生成、データフロー生成)と3つの異なるコードインテリジェンスタスク(コード生成、要約、翻訳)を実験に使用しています。静的解析タスクにおけるLCMの性能は低下しており,静的解析タスクに対する事前学習は,コードインテリジェンスタスクにおけるパフォーマンス向上に寄与しないことがわかった。
論文参考訳（メタデータ） (2025-05-17T18:55:40Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文参考訳（メタデータ） (2024-07-09T05:48:42Z)
Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。 AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文参考訳（メタデータ） (2024-05-02T17:32:59Z)
Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。 Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文参考訳（メタデータ） (2024-04-09T22:03:39Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文参考訳（メタデータ） (2023-10-25T14:38:40Z)
CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。 GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文参考訳（メタデータ） (2023-09-05T04:12:01Z)
The potential of LLMs for coding with low-resource and domain-specific programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文参考訳（メタデータ） (2023-07-24T17:17:13Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。