論文の概要: Towards Secure Logging: Characterizing and Benchmarking Logging Code Security Issues with LLMs
- arxiv url: http://arxiv.org/abs/2604.20211v1
- Date: Wed, 22 Apr 2026 05:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.982729
- Title: Towards Secure Logging: Characterizing and Benchmarking Logging Code Security Issues with LLMs
- Title(参考訳): セキュアロギングに向けて - LLMによるコードセキュリティ問題の特徴付けとベンチマーク
- Authors: He Yang Yuan, Xin Wang, Kundi Yao, An Ran Chen, Zishuo Ding, Zhenhao Li,
- Abstract要約: 安全でないロギングプラクティスは、不注意に機密情報を公開したり、ログインジェクションのような攻撃を可能にする。
コードのセキュリティ問題に関する包括的な分類を導き、一般的な4つの問題カテゴリと10のパターンを包含する。
本稿では,ログセキュリティ問題の検出と修復におけるLLMの能力を評価するために,さまざまなコンテキスト知識を取り入れた自動フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.469801665862114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logging code plays an important role in software systems by recording key events and behaviors, which are essential for debugging and monitoring. However, insecure logging practices can inadvertently expose sensitive information or enable attacks such as log injection, posing serious threats to system security and privacy. Prior research has examined general defects in logging code, but systematic analysis of logging code security issues remains limited, particularly in leveraging LLMs for detection and repair. In this paper, we derive a comprehensive taxonomy of logging code security issues, encompassing four common issue categories and 10 corresponding patterns. We further construct a benchmark dataset with 101 real-world logging security issue reports that have been manually reviewed and annotated. We then propose an automated framework that incorporates various contextual knowledge to evaluate LLMs' capabilities in detecting and repairing logging security issues. Our experimental results reveal a notable disparity in performance: while LLMs are moderately effective at detecting security issues (e.g., the accuracy ranges from 12.9% to 52.5% on average), they face noticeable challenges in reliably generating correct code repairs. We also find that the issue description alone improves the LLMs' detection accuracy more than the security pattern explanation or a combination of both. Overall, our findings provide actionable insights for practitioners and highlight the potential and limitations of current LLMs for secure logging.
- Abstract(参考訳): コードのログは、デバッグや監視に不可欠である重要なイベントや振る舞いを記録することで、ソフトウェアシステムにおいて重要な役割を果たす。
しかし、安全性の低いロギングプラクティスは、機密情報を不注意に公開したり、ログインジェクションのような攻撃を可能にし、システムのセキュリティとプライバシに深刻な脅威をもたらす可能性がある。
以前の研究では、ロギングコードの一般的な欠陥を調査してきたが、ロギングコードのセキュリティ問題に関する体系的な分析は、特にLLMを検出および修復に活用する場合に限られている。
本稿では,4つの共通課題カテゴリと10のパターンを含む,ロギングコードのセキュリティ問題に関する包括的分類を導出する。
さらに、手動でレビュー、注釈付けされた101の実際のロギングセキュリティ問題レポートでベンチマークデータセットを構築します。
次に,ログセキュリティ問題の検出と修復におけるLLMの能力を評価するために,さまざまなコンテキスト知識を取り入れた自動フレームワークを提案する。
LLMはセキュリティ問題(例えば、平均で12.9%から52.5%の範囲)を検出するのに適度に有効であるが、正しいコード修正を確実に生成する上で、顕著な課題に直面している。
また,問題記述だけでは,セキュリティパターンの説明や組み合わせよりもLLMの検出精度が向上することがわかった。
全体として,本研究は実践者に対して実用的な知見を提供し,セキュアなロギングのための現在のLLMの可能性と限界を強調した。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Defects4Log: Benchmarking LLMs for Logging Code Defect Detection and Reasoning [17.585929362588555]
コードのロギングは、開発者がシステムランタイムの振る舞いをキャプチャするために記述する。
ロギングコードの欠陥は、ログの有用性を損なう可能性があるため、誤解を招く可能性がある。
大規模言語モデル(LLM)は、有望な一般化と推論能力を示している。
論文 参考訳(メタデータ) (2025-08-15T08:20:09Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。