論文の概要: OmniLLP: Enhancing LLM-based Log Level Prediction with Context-Aware Retrieval
- arxiv url: http://arxiv.org/abs/2508.08545v1
- Date: Tue, 12 Aug 2025 01:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.26479
- Title: OmniLLP: Enhancing LLM-based Log Level Prediction with Context-Aware Retrieval
- Title(参考訳): OmniLLP: コンテキスト認識検索によるLLMベースのログレベル予測の強化
- Authors: Youssef Esseddiq Ouatiti, Mohammed Sayagh, Bram Adams, Ahmed E. Hassan,
- Abstract要約: 我々はOmniLLPを提案する。OmniLLPは、コードの機能目的を反映したセマンティックな類似性に基づくソースファイルをクラスタリングするフレームワークであり、開発者の所有権の凝集である。
以上の結果から, セマンティック・アウェア・クラスタリングとオーナシップ・アウェア・クラスタリングは, 評価LPPの精度(最大8%のAUC)を統計的に向上させることがわかった。
文脈内予測のためのセマンティック信号とオーナシップ信号を組み合わせるアプローチは、評価プロジェクト全体で印象的な0.88から0.96AUCを達成する。
- 参考スコア(独自算出の注目度): 8.328441582683034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developers insert logging statements in source code to capture relevant runtime information essential for maintenance and debugging activities. Log level choice is an integral, yet tricky part of the logging activity as it controls log verbosity and therefore influences systems' observability and performance. Recent advances in ML-based log level prediction have leveraged large language models (LLMs) to propose log level predictors (LLPs) that demonstrated promising performance improvements (AUC between 0.64 and 0.8). Nevertheless, current LLM-based LLPs rely on randomly selected in-context examples, overlooking the structure and the diverse logging practices within modern software projects. In this paper, we propose OmniLLP, a novel LLP enhancement framework that clusters source files based on (1) semantic similarity reflecting the code's functional purpose, and (2) developer ownership cohesion. By retrieving in-context learning examples exclusively from these semantic and ownership aware clusters, we aim to provide more coherent prompts to LLPs leveraging LLMs, thereby improving their predictive accuracy. Our results show that both semantic and ownership-aware clusterings statistically significantly improve the accuracy (by up to 8\% AUC) of the evaluated LLM-based LLPs compared to random predictors (i.e., leveraging randomly selected in-context examples from the whole project). Additionally, our approach that combines the semantic and ownership signal for in-context prediction achieves an impressive 0.88 to 0.96 AUC across our evaluated projects. Our findings highlight the value of integrating software engineering-specific context, such as code semantic and developer ownership signals into LLM-LLPs, offering developers a more accurate, contextually-aware approach to logging and therefore, enhancing system maintainability and observability.
- Abstract(参考訳): 開発者はソースコードにロギングステートメントを挿入して、メンテナンスやデバッグに必要なランタイム情報をキャプチャする。
ログレベルの選択は、ログの冗長性を制御しているため、システムの可観測性とパフォーマンスに影響を与えるため、ロギングアクティビティの不可欠な部分ですが、トリッキーな部分です。
MLベースのログレベルの予測の最近の進歩は、大きな言語モデル(LLM)を活用して、有望なパフォーマンス改善(0.64から0.8までのAUC)を示すログレベルの予測器(LLP)を提案している。
しかし、現在のLLMベースのLPPはランダムに選択されたインコンテキストの例に依存しており、現代のソフトウェアプロジェクトの構造と多様なロギングプラクティスを見下ろしている。
本稿では,(1)コードの機能的目的を反映した意味的類似性に基づくソースファイルをクラスタリングする,新しいLPP拡張フレームワークであるOmniLLPを提案する。
これらの意味的およびオーナシップを意識したクラスタから、文脈内学習例を検索することで、LLMを利用したLPPに対してよりコヒーレントなプロンプトを提供することにより、予測精度を向上させることを目指している。
本結果から,LLMを用いたLPPの精度を,ランダムな予測器(プロジェクト全体からランダムに選択したインコンテキストの例を活用)と比較して,意味的クラスタリングとオーナシップを考慮したクラスタリングの両方で統計的に改善した(最大8倍のAUC)。
さらに、文脈内予測のためのセマンティック信号とオーナシップ信号を組み合わせたアプローチは、評価プロジェクト全体で印象的な0.88から0.96AUCを達成する。
我々の発見は、コードセマンティクスや開発者の所有信号などのソフトウェアエンジニアリング固有のコンテキストをLLM-LLPに統合することの価値を強調し、開発者がロギングに対してより正確でコンテキスト対応のアプローチを提供し、システム保守性と可観測性を高めます。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study [32.53659676826846]
本稿では,ログステートメント生成のための大規模言語モデル (LLM) に関する最初の研究を行う。
まず、ログステートメント生成データセットであるLogBenchを構築しました。(1)LogBench-O:GitHubリポジトリから収集したログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードです。
論文 参考訳(メタデータ) (2023-07-12T06:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。