Fugu-MT 論文翻訳(概要): A Sentence-Level Approach to Understanding Software Vulnerability Fixes

論文の概要: A Sentence-Level Approach to Understanding Software Vulnerability Fixes

arxiv url: http://arxiv.org/abs/2503.10877v1
Date: Thu, 13 Mar 2025 20:44:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.063578
Title: A Sentence-Level Approach to Understanding Software Vulnerability Fixes
Title（参考訳）: ソフトウェア脆弱性の修正を理解するための文レベルアプローチ
Authors: Amiao Gao, Zenong Zhang, Simin Wang, Liguo Huang, Shiyi Wei, Vincent Ng,
Abstract要約: 本研究では,自然言語(NL)脆弱性アーティファクトの脆弱性に対する3種類のセマンティクス(トリガー,クラッシュ現象,修正動作)のうちの少なくとも1つを記述する一対の文を,対応するコード文に関連付ける新しいトレーサビリティモデルを提案する。我々のエンドツーエンドアプローチは、VulnExtractとVulnTraceの2つの重要なステップで実装されています。 VulnTraceは、関連する一対のNL文を対応する一対のコードステートメントにマッピングするために、68.2%以上のTop5精度を達成する。
参考スコア（独自算出の注目度）: 18.088490106022252
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding software vulnerabilities and their resolutions is crucial for securing modern software systems. This study presents a novel traceability model that links a pair of sentences describing at least one of the three types of semantics (triggers, crash phenomenon and fix action) for a vulnerability in natural language (NL) vulnerability artifacts, to their corresponding pair of code statements. Different from the traditional traceability models, our tracing links between a pair of related NL sentences and a pair of code statements can recover the semantic relationship between code statements so that the specific role played by each code statement in a vulnerability can be automatically identified. Our end-to-end approach is implemented in two key steps: VulnExtract and VulnTrace. VulnExtract automatically extracts sentences describing triggers, crash phenomenon and/or fix action for a vulnerability using 37 discourse patterns derived from NL artifacts (CVE summary, bug reports and commit messages). VulnTrace employs pre-trained code search models to trace these sentences to the corresponding code statements. Our empirical study, based on 341 CVEs and their associated code snippets, demonstrates the effectiveness of our approach, with recall exceeding 90% in most cases for NL sentence extraction. VulnTrace achieves a Top5 accuracy of over 68.2% for mapping a pair of related NL sentences to the corresponding pair of code statements. The end-to-end combined VulnExtract+VulnTrace achieves a Top5 accuracy of 59.6% and 53.1% for mapping two pairs of NL sentences to code statements. These results highlight the potential of our method in automating vulnerability comprehension and reducing manual effort.
Abstract（参考訳）: ソフトウェア脆弱性とその解決法を理解することは、現代のソフトウェアシステムの確保に不可欠である。本研究では,自然言語(NL)脆弱性アーティファクトの脆弱性に対する3種類のセマンティクス(トリガー,クラッシュ現象,修正動作)のうちの少なくとも1つを記述する一対の文を,対応するコード文に関連付ける新しいトレーサビリティモデルを提案する。従来のトレーサビリティモデルと異なり、関連する一対のNL文と一対のコードステートメントの間のトレースリンクは、コードステートメント間のセマンティックな関係を回復し、脆弱性における各コードステートメントが果たす特定の役割を自動的に特定できるようにします。我々のエンドツーエンドアプローチは、VulnExtractとVulnTraceの2つの重要なステップで実装されています。 VulnExtractは、NLアーティファクト(CVE概要、バグレポート、コミットメッセージ)から派生した37の談話パターンを使用して、脆弱性のトリガ、クラッシュ現象、/または修正アクションを記述した文を自動的に抽出する。 VulnTraceは、トレーニング済みのコード検索モデルを使用して、これらの文を対応するコードステートメントにトレースする。 341個のCVEとその関連コードスニペットをベースとした実証的研究により,NL文抽出症例の90%以上をリコールし,本手法の有効性を実証した。 VulnTraceは、関連する一対のNL文を対応する一対のコードステートメントにマッピングするために、68.2%以上のTop5精度を達成する。 VulnExtract+VulnTraceは2対のNL文をコードステートメントにマッピングする際の59.6%と53.1%のトップ5の精度を達成する。これらの結果は,脆弱性理解の自動化と手作業の軽減における本手法の可能性を強調した。

関連論文リスト

The Semantic Trap: Do Fine-tuned LLMs Learn Vulnerability Root Cause or Just Functional Pattern? [14.472036099680961]
そこで我々は,脆弱性根本原因を機能パターンから切り離すための総合評価フレームワークTrapEvalを提案する。我々は、3つのモデルファミリーにまたがる5つの最先端LCMを微調整し、それらを、CodeBLEUによって測定されたクロスデータセットテスト、セマンティック保存、および様々なセマンティックギャップの下で評価する。従来のデータセットに対する高いベンチマークスコアは、モデルが脆弱性の真の因果論理を理解できないことを隠蔽している可能性がある。
論文参考訳（メタデータ） (2026-01-30T07:19:17Z)
The Compliance Paradox: Semantic-Instruction Decoupling in Automated Academic Code Evaluation [11.984098021215878]
SPACI(Semantic-Preserving Adrial Code Injection)フレームワークとAST-ASIP(Abstract Syntax Tree-Aware Semantic Injection Protocol)を紹介する。これらの方法は、抽象構文木(英語版)の構文的に不活性な領域(トリヴィアノード)に逆方向の指示を埋め込むことにより、構文解析ギャップを利用する。 Python、C、C++、Javaの25,000のサブミッションにまたがる9つのSOTAモデルの大規模な評価を通じて、DeepSeek-V3のような高容量オープンウェイトモデルにおいて、破滅的な失敗率(>95%)を明らかにします。
論文参考訳（メタデータ） (2026-01-29T07:40:58Z)
Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文参考訳（メタデータ） (2026-01-09T02:38:24Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。 Instruct-Verify-and-Act(IVA)を提案する。実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文参考訳（メタデータ） (2025-08-22T10:54:33Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
A test-free semantic mistakes localization framework in Neural Code Translation [32.5036379897325]
本稿では,Large Language Model(LLM)に基づく静的解析フレームワークであるEISPを紹介する。このフレームワークはソースコードと翻訳されたコード間の意味マッピングを生成する。 EISPは、AIチェーンを通じて、各サブコードのフラグメントをきめ細かい知識ヒントで接続する。
論文参考訳（メタデータ） (2024-10-30T08:53:33Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文参考訳（メタデータ） (2024-03-25T21:47:36Z)
SliceLocator: Locating Vulnerable Statements with Graph-based Detectors [33.395068754566935]
SliceLocatorは、すべての潜在的な脆弱性トリガリングステートメントから、最も重み付けされたフローパスを選択することで、最も関連性の高いテントフローを特定する。 SliceLocatorは、最先端の4つのGNNベースの脆弱性検知器で一貫して動作することを示す。
論文参考訳（メタデータ） (2024-01-05T10:15:04Z)
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文参考訳（メタデータ） (2023-03-23T16:29:27Z)
Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文参考訳（メタデータ） (2022-09-20T00:46:20Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)
Automated Mapping of Vulnerability Advisories onto their Fix Commits in Open Source Repositories [7.629717457706326]
実践経験と機械学習(ML)を組み合わせたアプローチを提案する。アドバイザリから脆弱性に関する鍵情報を含むアドバイザリレコードを抽出する。影響を受けるプロジェクトのソースコードリポジトリから、候補となる修正コミットのサブセットを取得する。
論文参考訳（メタデータ） (2021-03-24T17:50:35Z)
Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文参考訳（メタデータ） (2020-07-09T17:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。