論文の概要: Exploring the Effectiveness of LLMs in Automated Logging Generation: An
Empirical Study
- arxiv url: http://arxiv.org/abs/2307.05950v1
- Date: Wed, 12 Jul 2023 06:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 17:44:27.918467
- Title: Exploring the Effectiveness of LLMs in Automated Logging Generation: An
Empirical Study
- Title(参考訳): 自動ログ生成におけるLCMの有効性を探る:実証的研究
- Authors: Yichen Li, Yintong Huo, Zhihan Jiang, Renyi Zhong, Pinjia He, Yuxin
Su, Michael R. Lyu
- Abstract要約: 本稿では,ログステートメント生成に大規模言語モデルを適用した最初の大規模研究を行う。
LogBench では,8つの最先端 LLM の有効性と一般化能力を評価する。
- 参考スコア(独自算出の注目度): 36.98006395497526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated logging statement generation techniques facilitate developers in
writing appropriate logging statements that document software behaviors.
Current retrieval-based and learning-based logging methods fail to provide
accurate logging statements in complex software. Although existing large
language models (LLMs) might be a good fit for the task due to their great
success in natural language generation and programming language comprehension,
their effectiveness and generalization capabilities have not been explored. To
this end, this paper performs the first extensive study on applying LLMs for
logging statement generation. We build LogBench, the first logging statement
generation dataset. On LogBench, we evaluate the effectiveness and
generalization capabilities of eight state-of-the-art LLMs, which include
general-purpose and code-specific models ranging from 60M to 175B in size.
Specifically, we evaluate LLM's logging effectiveness by studying 1) their
ability to decide logging ingredients, 2) the impact of the internal
characteristics of LLMs, and 3) the influence of external factors. We further
evaluate LLM's logging generalization capabilities using unseen data derived
from code transformation techniques. Our study demonstrates that existing LLMs
fall short of practical requirements for generating proper logging statement
texts. We also disclose the impact of internal characteristics and external
factors for LLMs in automated logging. In addition, we observe that existing
LLMs cannot generalize to logging unseen code, revealing their unsatisfactory
generalization capabilities. Based on our findings, we further discuss three
implications that can enhance logging statement generation in the future, such
as developing a unified metric for logging quality, incorporating shareable
code knowledge into LLMs, and devising suitable prompts.
- Abstract(参考訳): 自動ロギングステートメント生成技術は、開発者がソフトウェアの振る舞いを文書化する適切なロギングステートメントを書くのに役立つ。
現在の検索ベースおよび学習ベースのロギング手法は、複雑なソフトウェアで正確なロギングステートメントを提供できない。
既存の大規模言語モデル(LLM)は、自然言語生成とプログラミング言語理解において大きな成功を収めたために、このタスクに適しているかもしれないが、その有効性と一般化能力は検討されていない。
そこで本稿では,ロギングステートメント生成にLLMを適用した最初の大規模研究を行う。
最初のロギングステートメント生成データセットであるLogBenchを構築します。
LogBenchでは、60Mから175Bの汎用およびコード固有モデルを含む8つの最先端LCMの有効性と一般化能力を評価する。
具体的には,LLMのロギングの有効性を研究によって評価する。
1) 伐採材料を決定する能力
2 LLMの内部特性の影響、及び
3)外部要因の影響。
さらに,LLMのロギング一般化機能について,コード変換手法から導出した未確認データを用いて評価する。
本研究は,既存のLCMが適切なロギング文を生成するための実践的な要件を満たさないことを示す。
また,自動ロギングにおけるLCMの内部特性と外部要因の影響を明らかにした。
さらに,既存のLLMでは,未確認コードのロギングには一般化できないこと,不満足な一般化能力を明らかにする。
本稿では,ロギング品質の統一化,共有可能なコード知識のLLMへの組み込み,適切なプロンプトの考案など,ロギングステートメント生成を将来的に向上させる上での3つの意味について考察する。
関連論文リスト
- RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - LUNAR: Unsupervised LLM-based Log Parsing [34.344687402936835]
LUNARは,効率的かつ市販のログ解析のための教師なし手法である。
我々の重要な洞察は、LSMは直接ログ解析に苦労するかもしれないが、それらの性能は比較分析によって大幅に向上できるということである。
大規模な公開データセットの実験は、LUNARが精度と効率の点で最先端のログクラフトを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-11T11:32:01Z) - Log Parsing with Self-Generated In-Context Learning and Self-Correction [15.93927602769091]
さまざまなログ解析手法が提案されているが、人為的なルールや限られたトレーニングデータによる学習ベースモデルに依存しているため、ログデータの進化に対する彼らのパフォーマンスは満足できないままである。
本稿では,自己生成型インコンテキスト学習(SG-ICL)と自己補正を併用したLLMを用いた効果的かつ適応的なログ解析フレームワークであるAdaを提案する。
論文 参考訳(メタデータ) (2024-06-05T15:31:43Z) - LLMParser: An Exploratory Study on Using Large Language Models for Log Parsing [8.647406441990396]
ログ解析にLarge Language Models (LLMs) を用いることの可能性を検討した。
例えば、Flan-T5-baseはLLaMA-7Bに匹敵する結果を短時間で達成する。
また,他のシステムからのログを用いて事前学習したLLMを用いることで,解析精度が向上するとは限らない。
論文 参考訳(メタデータ) (2024-04-27T20:34:29Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - LILAC: Log Parsing using LLMs with Adaptive Parsing Cache [38.04960745458878]
適応型解析キャッシュを備えた大規模言語モデル (LLM) を用いた最初の実用的なログ解析フレームワーク LILAC を提案する。
LLMの特殊なログ解析能力の欠如は、現在解析の正確さを妨げている。
LILACは,テンプレートの精度の平均F1スコアにおいて,最先端の手法よりも69.5%優れていた。
論文 参考訳(メタデータ) (2023-10-03T04:46:59Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。