論文の概要: AUCAD: Automated Construction of Alignment Dataset from Log-Related Issues for Enhancing LLM-based Log Generation
- arxiv url: http://arxiv.org/abs/2412.18835v2
- Date: Wed, 13 Aug 2025 08:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.153407
- Title: AUCAD: Automated Construction of Alignment Dataset from Log-Related Issues for Enhancing LLM-based Log Generation
- Title(参考訳): AUCAD:LLMを用いたログ生成のためのログ関連課題からのアライメントデータセットの自動構築
- Authors: Hao Zhang, Dongjun Yu, Lei Zhang, Guoping Rong, Yongda Yu, Haifeng Shen, He Zhang, Dong Shao, Hongyu Kuang,
- Abstract要約: 本稿では,LLMを用いた自動ログステートメント生成のための汎用データセットを用いた後学習による性能向上について検討する。
AUCADと呼ばれる新しいアプローチは、ログ関連の問題から情報を抽出したデータセットを自動的に構築する。
人的および実験的な評価は、これらのモデルが既存のLCMベースのソリューションを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 19.410504836739058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Log statements have become an integral part of modern software systems. Prior research efforts have focused on supporting the decisions of placing log statements, such as where/what to log. With the increasing adoption of Large Language Models (LLMs) for code-related tasks such as code completion or generation, automated approaches for generating log statements have gained much momentum. However, the performance of these approaches still has a long way to go. This paper explores enhancing the performance of LLM-based solutions for automated log statement generation by post-training LLMs with a purpose-built dataset. Thus the primary contribution is a novel approach called AUCAD, which automatically constructs such a dataset with information extracting from log-related issues. Researchers have long noticed that a significant portion of the issues in the open-source community are related to log statements. However, distilling this portion of data requires manual efforts, which is labor-intensive and costly, rendering it impractical. Utilizing our approach, we automatically extract log-related issues from 1,537 entries of log data across 88 projects and identify 808 code snippets (i.e., methods) with retrievable source code both before and after modification of each issue (including log statements) to construct a dataset. Each entry in the dataset consists of a data pair representing high-quality and problematic log statements, respectively. With this dataset, we proceed to post-train multiple LLMs (primarily from the Llama series) for automated log statement generation. Both human and experimental evaluations indicate that these models significantly outperform existing LLM-based solutions, thereby validating the efficacy of our method for constructing a post-training dataset to enhance LLM-based log statement generation.
- Abstract(参考訳): ログステートメントは、現代のソフトウェアシステムにおいて不可欠な部分となっている。
これまでの研究努力は、ログステートメントの配置に関する決定(例えば、ログの場所/場所など)のサポートに重点を置いていた。
コード補完や生成といったコード関連のタスクにLLM(Large Language Models)が採用されることで、ログステートメントを生成するための自動アプローチが勢いを増している。
しかしながら、これらのアプローチのパフォーマンスにはまだまだ長い道のりがあります。
本稿では,LLM を用いた自動ログステートメント生成のための汎用データセットを用いた後処理による LLM ベースのソリューションの性能向上について検討する。
したがって、主な貢献はAUCADと呼ばれる新しいアプローチであり、ログ関連の問題から情報を抽出したデータセットを自動的に構築する。
研究者は長い間、オープンソースのコミュニティにおける問題の大部分がログステートメントに関連していることに気付いてきた。
しかし、この部分を蒸留するには手作業が必要であり、労働集約的でコストがかかるため、現実的ではない。
このアプローチを利用することで、88のプロジェクトにわたる1,537のログデータのエントリからログ関連の問題を自動的に抽出し、データセットを構築するために各イシュー(ログステートメントを含む)の修正前後に、検索可能なソースコードで808のコードスニペット(メソッド)を識別する。
データセットの各エントリは、それぞれ高品質なログステートメントと問題のあるログステートメントを表すデータペアで構成されている。
このデータセットにより、自動ログステートメント生成のために、複数のLLM(主にLlamaシリーズ)の訓練後処理を行う。
人的および実験的評価は、これらのモデルが既存のLCMベースのソリューションを大幅に上回っていることを示唆し、LLMベースのログステートメント生成を向上させるために、トレーニング後のデータセットを構築する方法の有効性を検証した。
関連論文リスト
- Larger Is Not Always Better: Exploring Small Open-source Language Models in Logging Statement Generation [28.884070374408203]
自動ロギングステートメント生成のための大規模言語モデル(LLM)には、プライバシとリソースの問題がある。
本稿では,ロギングステートメントの自動生成のための小規模なオープンソース言語モデル(SOLM)を評価するための大規模な実証的研究について述べる。
論文 参考訳(メタデータ) (2025-05-22T12:26:53Z) - SoK: LLM-based Log Parsing [2.2779174914142346]
本稿では,29の大規模言語モデル (LLM) に基づくログ解析手法を体系的にレビューする。
我々は,学習パラダイムとプロンプトエンジニアリングパラダイム,効率・有効性向上技術,解析プロセスにおけるLLMの役割を分析した。
論文 参考訳(メタデータ) (2025-04-07T09:41:04Z) - LogLLM: Log-based Anomaly Detection Using Large Language Models [8.03646578793411]
大規模言語モデル(LLM)を活用するログベースの異常検出フレームワークであるLogLLMを提案する。
LogLLMはBERTを使用してログメッセージからセマンティックベクターを抽出し、変換器デコーダベースのモデルであるLlamaを使ってログシーケンスを分類する。
我々のフレームワークは、性能と適応性を高めるために設計された新しい3段階の手順によって訓練されている。
論文 参考訳(メタデータ) (2024-11-13T12:18:00Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Log Parsing with Self-Generated In-Context Learning and Self-Correction [15.93927602769091]
さまざまなログ解析手法が提案されているが、人為的なルールや限られたトレーニングデータによる学習ベースモデルに依存しているため、ログデータの進化に対する彼らのパフォーマンスは満足できないままである。
本稿では,自己生成型インコンテキスト学習(SG-ICL)と自己補正を併用したLLMを用いた効果的かつ適応的なログ解析フレームワークであるAdaを提案する。
論文 参考訳(メタデータ) (2024-06-05T15:31:43Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study [32.53659676826846]
本稿では,ログステートメント生成のための大規模言語モデル (LLM) に関する最初の研究を行う。
まず、ログステートメント生成データセットであるLogBenchを構築しました。(1)LogBench-O:GitHubリポジトリから収集したログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードです。
論文 参考訳(メタデータ) (2023-07-12T06:32:51Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。