Fugu-MT 論文翻訳(概要): Automated File-Level Logging Generation for Machine Learning Applications using LLMs: A Case Study using GPT-4o Mini

論文の概要: Automated File-Level Logging Generation for Machine Learning Applications using LLMs: A Case Study using GPT-4o Mini

arxiv url: http://arxiv.org/abs/2508.04820v1
Date: Wed, 06 Aug 2025 18:57:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-08 18:59:39.623789
Title: Automated File-Level Logging Generation for Machine Learning Applications using LLMs: A Case Study using GPT-4o Mini
Title（参考訳）: LLMを用いた機械学習アプリケーションのためのファイルレベル自動ロギング生成:GPT-4o Miniを用いたケーススタディ
Authors: Mayra Sofia Ruiz Rodriguez, SayedHassan Khatoonabadi, Emad Shihab,
Abstract要約: 我々は、GPT-4o miniのファイルレベルでの機械学習プロジェクトのためのログステートメントを生成する能力を評価した。 LLMは63.91%のケースで人間と同じ場所にログを導入しているが、高いオーバーログ率は82.66%である。
参考スコア（独自算出の注目度）: 3.076436880934678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Logging is essential in software development, helping developers monitor system behavior and aiding in debugging applications. Given the ability of large language models (LLMs) to generate natural language and code, researchers are exploring their potential to generate log statements. However, prior work focuses on evaluating logs introduced in code functions, leaving file-level log generation underexplored -- especially in machine learning (ML) applications, where comprehensive logging can enhance reliability. In this study, we evaluate the capacity of GPT-4o mini as a case study to generate log statements for ML projects at file level. We gathered a set of 171 ML repositories containing 4,073 Python files with at least one log statement. We identified and removed the original logs from the files, prompted the LLM to generate logs for them, and evaluated both the position of the logs and log level, variables, and text quality of the generated logs compared to human-written logs. In addition, we manually analyzed a representative sample of generated logs to identify common patterns and challenges. We find that the LLM introduces logs in the same place as humans in 63.91% of cases, but at the cost of a high overlogging rate of 82.66%. Furthermore, our manual analysis reveals challenges for file-level logging, which shows overlogging at the beginning or end of a function, difficulty logging within large code blocks, and misalignment with project-specific logging conventions. While the LLM shows promise for generating logs for complete files, these limitations remain to be addressed for practical implementation.
Abstract（参考訳）: ロギングはソフトウェア開発において不可欠であり、開発者がシステムの振る舞いを監視し、アプリケーションのデバッグを支援するのに役立つ。自然言語とコードを生成する大規模言語モデル(LLM)の能力を考えると、研究者はログステートメントを生成する可能性を探っている。しかしながら、以前の作業では、コード機能で導入されたログの評価に重点を置いており、特に包括的なロギングによって信頼性が向上するマシンラーニング(ML)アプリケーションでは、ファイルレベルのログ生成が過小評価されている。本研究では,ファイルレベルでMLプロジェクトのログステートメントを生成するケーススタディとして,GPT-4o miniの容量を評価する。我々は、少なくとも1つのログステートメントを持つ4,073のPythonファイルを含む171のMLリポジトリを集めた。我々は、元のログをファイルから識別して削除し、LSMにログの生成を促し、ログの位置とログレベル、変数、生成したログのテキスト品質を人手によるログと比較した。さらに、生成したログの代表サンプルを手動で分析し、共通パターンと課題を特定した。 LLMは63.91%のケースで人間と同じ場所にログを導入しているが、高いオーバーログ率は82.66%である。さらに、我々の手動による分析では、関数の開始時や終了時にオーバーログし、大きなコードブロック内でのロギングを困難にし、プロジェクト固有のロギング規約とのミスアライメントを示す、ファイルレベルのロギングの課題を明らかにしています。 LLMは完全なファイルのログを生成することを約束しているが、これらの制限は実用的な実装のために対処される。

関連論文リスト

LogLLM: Log-based Anomaly Detection Using Large Language Models [7.7704116297749675]
大規模言語モデル(LLM)を活用するログベースの異常検出フレームワークであるLogLLMを提案する。 LogLLMはBERTを使用してログメッセージからセマンティックベクターを抽出し、変換器デコーダベースのモデルであるLlamaを使ってログシーケンスを分類する。我々のフレームワークは、性能と適応性を高めるために設計された新しい3段階の手順によって訓練されている。
論文参考訳（メタデータ） (2024-11-13T12:18:00Z)
Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文参考訳（メタデータ） (2024-10-11T03:52:17Z)
Stronger, Cheaper and Demonstration-Free Log Parsing with LLMs [18.240096266464544]
トレーニングプロセスやラベル付きデータを必要としない,費用対効果の高いLCMベースのログであるLogBatcherを提案する。我々は16の公開ログデータセットの実験を行い、ログ解析にLogBatcherが有効であることを示した。
論文参考訳（メタデータ） (2024-06-10T10:39:28Z)
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文参考訳（メタデータ） (2024-03-17T13:01:03Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文参考訳（メタデータ） (2023-08-21T16:24:15Z)
Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文参考訳（メタデータ） (2023-08-17T14:19:22Z)
Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study [32.53659676826846]
本稿では,ログステートメント生成のための大規模言語モデル (LLM) に関する最初の研究を行う。まず、ログステートメント生成データセットであるLogBenchを構築しました。(1)LogBench-O:GitHubリポジトリから収集したログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードです。
論文参考訳（メタデータ） (2023-07-12T06:32:51Z)
Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。 1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文参考訳（メタデータ） (2022-04-06T07:02:23Z)
Leveraging Code Clones and Natural Language Processing for Log Statement Prediction [0.0]
本研究の目的は、ソースコードクローンと自然言語処理(NLP)を利用してログステートメントを予測することである。本研究は,ログの自動位置検出と記述予測におけるログ認識型クローン検出の有効性を示す。
論文参考訳（メタデータ） (2021-09-08T18:17:45Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。