論文の概要: LoGFiLM: Fine-Tuning A Large Language Model for Automated Generation of Log Statements
- arxiv url: http://arxiv.org/abs/2412.18835v1
- Date: Wed, 25 Dec 2024 08:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:29.945796
- Title: LoGFiLM: Fine-Tuning A Large Language Model for Automated Generation of Log Statements
- Title(参考訳): LoGFiLM:ログステートメントの自動生成のための大規模言語モデル
- Authors: Hao Zhang, Dongjun Yu, Lei Zhang, Guoping Rong, Yongda Yu, Haifeng Shen, He Zhang, Dong Shao, Hongyu Kuang,
- Abstract要約: 本論文は,Llama-3-8Bの微細チューニング手法であるLoGFiLMと,Llama-3-8Bの微細チューニングに提案手法を用いた模範モデルを提案する。
我々のキュレートされたデータセットと公開データセットによる実験では、LoGFiLMはオリジナルのLlama-3-8Bと、GPT-3.5とGPT-4の商業的例を一貫して上回っている。
- 参考スコア(独自算出の注目度): 19.410504836739058
- License:
- Abstract: Log statements have become an integral part of modern software systems. Prior research efforts have focused on supporting the decisions of placing log statements, such as where/what to log, while automated generation or completion of log statements has received little attention. With the increasing use of Large Language Models (LLMs) for code-related tasks such as code completion or generation, automated methods for generating or completing log statements have gained much momentum. Fine-tuning open-source LLMs like the Llama series is often preferred by enterprises over using commercial ones like the GPT series due to considerations including privacy, security, openness, performance, etc. Fine-tuning LLMs requires task-specific training data and custom-designed processing algorithms, which, however, have not been thoroughly explored for the log statement generation task. This paper fills this gap by contributing such a fine-tuning method LoGFiLM and an exemplar model by using the proposed method to fine-tune Llama-3-8B. Experiments with our own curated dataset and a public dataset show that LoGFiLM consistently outperforms the original Llama-3-8B and the commercial LLMs of GPT-3.5 and GPT-4. The results further reveal that fine-tuning Llama-3-8B with data encompassing broader contextual ranges surrounding log statements yields a better model for the automated generation of log statements.
- Abstract(参考訳): ログステートメントは、現代のソフトウェアシステムにおいて不可欠な部分となっている。
以前の調査では、ログステートメントの自動生成や完了がほとんど注目されていないのに対して、ログステートメントの配置の決定をサポートすることに重点を置いていた。
コード補完や生成といったコード関連のタスクにLLM(Large Language Models)の使用が増加し、ログステートメントの生成や完了のための自動メソッドが勢いを増している。
Llamaシリーズのような微調整のオープンソースLLMは、プライバシ、セキュリティ、オープン性、パフォーマンスなどの考慮から、GPTシリーズのような商用製品よりも企業の方が好まれます。
微調整 LLM はタスク固有のトレーニングデータとカスタム設計の処理アルゴリズムを必要とするが、ログステートメント生成タスクについては十分に検討されていない。
本稿では,Llama-3-8Bの微調整法であるLoGFiLMと,Llama-3-8Bの微調整法を用いて,このギャップを埋める。
我々のキュレートされたデータセットと公開データセットを用いて実験したところ、LoGFiLMはオリジナルのLlama-3-8Bと商業LLMのGPT-3.5とGPT-4を一貫して上回っていることがわかった。
さらに、ログステートメントを取り巻くより広いコンテキスト範囲のデータを含む微調整のLlama-3-8Bは、ログステートメントの自動生成により良いモデルをもたらすことが明らかとなった。
関連論文リスト
- LogLLM: Log-based Anomaly Detection Using Large Language Models [8.03646578793411]
大規模言語モデル(LLM)を活用するログベースの異常検出フレームワークであるLogLLMを提案する。
LogLLMはBERTを使用してログメッセージからセマンティックベクターを抽出し、変換器デコーダベースのモデルであるLlamaを使ってログシーケンスを分類する。
我々のフレームワークは、性能と適応性を高めるために設計された新しい3段階の手順によって訓練されている。
論文 参考訳(メタデータ) (2024-11-13T12:18:00Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - A Comparative Study on Large Language Models for Log Parsing [3.3590922002216197]
ログ解析を行うための最先端の大規模言語モデルの現状について検討する。
我々は2つの異なるプロンプトアプローチを設計し、16の異なるプロジェクトにわたる1,354のログテンプレートにLSMを適用する。
CodeLlamaはGPT-3.5よりも10%多くのログテンプレートを抽出しています。
論文 参考訳(メタデータ) (2024-09-04T06:46:31Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Log Parsing with Self-Generated In-Context Learning and Self-Correction [15.93927602769091]
さまざまなログ解析手法が提案されているが、人為的なルールや限られたトレーニングデータによる学習ベースモデルに依存しているため、ログデータの進化に対する彼らのパフォーマンスは満足できないままである。
本稿では,自己生成型インコンテキスト学習(SG-ICL)と自己補正を併用したLLMを用いた効果的かつ適応的なログ解析フレームワークであるAdaを提案する。
論文 参考訳(メタデータ) (2024-06-05T15:31:43Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study [32.53659676826846]
本稿では,ログステートメント生成のための大規模言語モデル (LLM) に関する最初の研究を行う。
まず、ログステートメント生成データセットであるLogBenchを構築しました。(1)LogBench-O:GitHubリポジトリから収集したログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードです。
論文 参考訳(メタデータ) (2023-07-12T06:32:51Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。