論文の概要: LSPFuzz: Hunting Bugs in Language Servers
- arxiv url: http://arxiv.org/abs/2510.00532v2
- Date: Thu, 02 Oct 2025 02:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.399545
- Title: LSPFuzz: Hunting Bugs in Language Servers
- Title(参考訳): LSPFuzz: 言語サーバーでバグをハンティングする
- Authors: Hengcheng Zhu, Songqiang Chen, Valerio Terragni, Lili Wei, Jiarong Wu, Yepang Liu, Shing-Chi Cheung,
- Abstract要約: LSPサーバテストのためのグレーボックスハイブリッドファザであるLSPFuzzを提案する。
我々の重要な洞察は、有効なLSPサーバーテストはソースコードとエディタ操作の全体的突然変異を必要とすることである。
LSPFuzzはベースラインファジィザよりも優れた性能を示し、現実世界のLSPサーバの既知のバグを発見した。
- 参考スコア(独自算出の注目度): 9.824700181691155
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Language Server Protocol (LSP) has revolutionized the integration of code intelligence in modern software development. There are approximately 300 LSP server implementations for various languages and 50 editors offering LSP integration. However, the reliability of LSP servers is a growing concern, as crashes can disable all code intelligence features and significantly impact productivity, while vulnerabilities can put developers at risk even when editing untrusted source code. Despite the widespread adoption of LSP, no existing techniques specifically target LSP server testing. To bridge this gap, we present LSPFuzz, a grey-box hybrid fuzzer for systematic LSP server testing. Our key insight is that effective LSP server testing requires holistic mutation of source code and editor operations, as bugs often manifest from their combinations. To satisfy the sophisticated constraints of LSP and effectively explore the input space, we employ a two-stage mutation pipeline: syntax-aware mutations to source code, followed by context-aware dispatching of editor operations. We evaluated LSPFuzz on four widely used LSP servers. LSPFuzz demonstrated superior performance compared to baseline fuzzers, and uncovered previously unknown bugs in real-world LSP servers. Of the 51 bugs we reported, 42 have been confirmed, 26 have been fixed by developers, and two have been assigned CVE numbers. Our work advances the quality assurance of LSP servers, providing both a practical tool and foundational insights for future research in this domain.
- Abstract(参考訳): 言語サーバープロトコル(LSP)は、現代のソフトウェア開発におけるコードインテリジェンスの統合に革命をもたらした。
様々な言語向けの約300のLSPサーバ実装と、LSP統合を提供する50のエディタがある。
クラッシュはすべてのコードインテリジェンス機能を無効にし、生産性に大きな影響を及ぼすが、脆弱性は開発者が信頼できないソースコードを編集してもリスクを冒す可能性がある。
LSPが広く採用されているにもかかわらず、LSPサーバーテストに特化したテクニックは存在しない。
このギャップを埋めるために、系統的なLSPサーバーテストのためのグレーボックスハイブリッドファザであるLSPFuzzを紹介する。
私たちの重要な洞察は、効果的なLSPサーバーテストはソースコードとエディタ操作の全体的突然変異を必要とするということです。
LSPの洗練された制約を満たし、入力空間を効果的に探索するために、2段階の突然変異パイプラインを用いる。
広く使われている4台のLSPサーバ上でLSPFuzzを評価した。
LSPFuzzはベースラインファジィザよりも優れた性能を示し、現実世界のLSPサーバの既知のバグを発見した。
報告した51のバグのうち42が確認され、26が開発者によって修正され、2つのCVE番号が割り当てられた。
我々の研究は、LSPサーバの品質保証を推進し、この領域における将来の研究に実用的なツールと基礎的な洞察を提供する。
関連論文リスト
- LLM-GUARD: Large Language Model-Based Detection and Repair of Bugs and Security Vulnerabilities in C++ and Python [0.0]
ChatGPT-4、Claude 3、LLaMA 4のような大規模言語モデル(LLM)は、ソフトウェア/アプリケーション開発にますます組み込まれている。
本研究では,プログラムエラー,古典的セキュリティ欠陥,およびC++とPythonの高度なプロダクショングレードバグのベンチマークを用いて,これら3つの主要なLCMの体系的,実証的な評価を行う。
論文 参考訳(メタデータ) (2025-08-22T14:30:24Z) - D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。
近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。
大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。
D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文 参考訳(メタデータ) (2025-06-11T19:09:08Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - LLM4CVE: Enabling Iterative Automated Vulnerability Repair with Large Language Models [9.946058168276744]
大規模言語モデル(LLM)は、多くのソフトウェア欠陥が自動的にパッチを当てられる可能性を開放した。
実世界のコードで脆弱な関数を高い精度で堅牢に修正する反復パイプラインを提案する。
また,Llama 370Bでは,人間の検証による品質スコアが8.51/10,Llama 370Bでは20%に向上した。
論文 参考訳(メタデータ) (2025-01-07T00:21:42Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。