論文の概要: Larger Is Not Always Better: Exploring Small Open-source Language Models in Logging Statement Generation
- arxiv url: http://arxiv.org/abs/2505.16590v2
- Date: Wed, 28 May 2025 03:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.712408
- Title: Larger Is Not Always Better: Exploring Small Open-source Language Models in Logging Statement Generation
- Title(参考訳): 大規模化は常に改善されない - ロギングステートメント生成で小さなオープンソース言語モデルを探る
- Authors: Renyi Zhong, Yichen Li, Guangba Yu, Wenwei Gu, Jinxi Kuang, Yintong Huo, Michael R. Lyu,
- Abstract要約: 自動ロギングステートメント生成のための大規模言語モデル(LLM)には、プライバシとリソースの問題がある。
本稿では,ロギングステートメントの自動生成のための小規模なオープンソース言語モデル(SOLM)を評価するための大規模な実証的研究について述べる。
- 参考スコア(独自算出の注目度): 28.884070374408203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developers use logging statements to create logs that document system behavior and aid in software maintenance. As such, high-quality logging is essential for effective maintenance; however, manual logging often leads to errors and inconsistency. Recent methods emphasize using large language models (LLMs) for automated logging statement generation, but these present privacy and resource issues, hindering their suitability for enterprise use. This paper presents the first large-scale empirical study evaluating small open-source language models (SOLMs) for automated logging statement generation. We evaluate four prominent SOLMs using various prompt strategies and parameter-efficient fine-tuning techniques, such as Low-Rank Adaptation (LoRA) and Retrieval-Augmented Generation (RAG). Our results show that fine-tuned SOLMs with LoRA and RAG prompts, particularly Qwen2.5-coder-14B, outperform existing tools and LLM baselines in predicting logging locations and generating high-quality statements, with robust generalization across diverse repositories. These findings highlight SOLMs as a privacy-preserving, efficient alternative for automated logging.
- Abstract(参考訳): 開発者はロギングステートメントを使用して、システムの振る舞いを文書化し、ソフトウェアのメンテナンスを支援するログを作成する。
そのため、効率的なメンテナンスには高品質なロギングが不可欠である。
近年の手法では,ログステートメントの自動生成に大規模言語モデル(LLM)を用いることが強調されている。
本稿では,ロギングステートメントの自動生成のための小規模なオープンソース言語モデル(SOLM)を評価するための大規模な実証的研究について述べる。
我々は,ローランド適応 (LoRA) やレトリーバル拡張生成 (RAG) など,様々なプロンプト戦略とパラメータ効率の高い微調整技術を用いて,SOLMを4つ評価した。
特にQwen2.5-coder-14Bは,ログ位置の予測や高品質なステートメントの生成において,既存のツールやLCMベースラインよりも優れ,多様なリポジトリをまたいだ堅牢な一般化を実現している。
これらの結果は、SOLMが自動ロギングのプライバシー保護と効率的な代替手段であることを示している。
関連論文リスト
- SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - System Log Parsing with Large Language Models: A Review [2.2779174914142346]
大規模言語モデル (LLM) はLLMに基づくログ解析の新しい研究分野を導入した。
有望な結果にもかかわらず、この比較的新しい研究分野におけるアプローチの構造化された概要は存在しない。
この研究は29 LLMベースのログ解析手法を体系的にレビューする。
論文 参考訳(メタデータ) (2025-04-07T09:41:04Z) - AdaptiveLog: An Adaptive Log Analysis Framework with the Collaboration of Large and Small Language Model [42.72663245137984]
本稿では、AdaptiveLogとして知られる適応ログ分析フレームワークを紹介する。
優れた結果を確保しつつ、LLMに関連するコストを効果的に削減する。
実験では、AdaptiveLogがさまざまなタスクにまたがって最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2025-01-19T12:46:01Z) - LoGFiLM: Fine-Tuning A Large Language Model for Automated Generation of Log Statements [19.410504836739058]
本論文は,Llama-3-8Bの微細チューニング手法であるLoGFiLMと,Llama-3-8Bの微細チューニングに提案手法を用いた模範モデルを提案する。
我々のキュレートされたデータセットと公開データセットによる実験では、LoGFiLMはオリジナルのLlama-3-8Bと、GPT-3.5とGPT-4の商業的例を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-25T08:43:00Z) - LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models [4.1180254968265055]
LLM-Refは、研究者が複数のソース文書から記事を書くのを補助する記述支援ツールである。
チャンキングとインデックスを使用する従来のRAGシステムとは異なり、私たちのツールはテキスト段落から直接コンテンツを検索し、生成します。
我々の手法は、RAGシステムの正確で関連性があり、文脈的に適切な応答を生成する能力の全体像を提供する総合的な指標である、Ragasスコアの3.25タイムから6.26タイムの上昇を達成する。
論文 参考訳(メタデータ) (2024-11-01T01:11:58Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications [0.0]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)アプリケーションで顕著な性能を示した。
本稿では,オープンソースLLMとプロプライエタリモデルの比較分析を行う。
論文 参考訳(メタデータ) (2024-06-19T17:11:51Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study [32.53659676826846]
本稿では,ログステートメント生成のための大規模言語モデル (LLM) に関する最初の研究を行う。
まず、ログステートメント生成データセットであるLogBenchを構築しました。(1)LogBench-O:GitHubリポジトリから収集したログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードです。
論文 参考訳(メタデータ) (2023-07-12T06:32:51Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。