Fugu-MT 論文翻訳(概要): Logging Like Humans for LLMs: Rethinking Logging via Execution and Runtime Feedback

論文の概要: Logging Like Humans for LLMs: Rethinking Logging via Execution and Runtime Feedback

arxiv url: http://arxiv.org/abs/2603.29122v1
Date: Tue, 31 Mar 2026 01:18:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:02.981143
Title: Logging Like Humans for LLMs: Rethinking Logging via Execution and Runtime Feedback
Title（参考訳）: LLMのための人的ログ - 実行と実行時のフィードバックによるロギングの再考
Authors: Xin Wang, Yang Feng, Jiaoxiao Qian, Yang Zhang, Zhenhao Li, Zishuo Ding,
Abstract要約: ランタイムフィードバックによってガイドされる反復ロギング生成フレームワークであるReLogを紹介します。欠陥のローカライゼーションや修復など,下流デバッグタスクを通じてReLogを評価する。結果は、ReLogがすべてのベースラインを一貫して上回っていることを示している。
参考スコア（独自算出の注目度）: 17.85879405133239
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Logging statements are essential for software debugging and maintenance. However, existing approaches to automatic logging generation rely on static analysis and produce statements in a single pass without considering runtime behavior. They are also typically evaluated by similarity to developer-written logs, assuming these logs form an adequate gold standard. This assumption is increasingly limiting in the LLM era, where logs are consumed not only by developers but also by LLMs for downstream tasks. As a result, optimizing logs for human similarity does not necessarily reflect their practical utility. To address these limitations, we introduce ReLog, an iterative logging generation framework guided by runtime feedback. ReLog leverages LLMs to generate, execute, evaluate, and refine logging statements so that runtime logs better support downstream tasks. Instead of comparing against developer-written logs, we evaluate ReLog through downstream debugging tasks, including defect localization and repair. We construct a benchmark based on Defects4J under both direct and indirect debugging settings. Results show that ReLog consistently outperforms all baselines, achieving an F1 score of 0.520 and repairing 97 defects in the direct setting, and the best F1 score of 0.408 in the indirect setting where source code is unavailable. Additional experiments across multiple LLMs demonstrate the generality of the framework, while ablations confirm the importance of iterative refinement and compilation repair. Overall, our work reframes logging as a runtime-guided, task-oriented process and advocates evaluating logs by their downstream utility rather than textual similarity.
Abstract（参考訳）: ロギングステートメントは、ソフトウェアのデバッグとメンテナンスに不可欠です。しかし、自動ロギング生成への既存のアプローチは、静的解析に依存し、実行時の振る舞いを考慮せずに、単一のパスでステートメントを生成する。また、これらのログが適切なゴールド標準となると仮定して、開発者によるログと類似性によって評価されるのが一般的である。この仮定は、開発者だけでなく、下流タスクのためにLLMによってログが消費されるLLM時代において、ますます制限されている。結果として、人間の類似性のためにログを最適化することは、その実用性を必ずしも反映していない。これらの制限に対処するため、ランタイムフィードバックによってガイドされる反復ロギング生成フレームワークであるReLogを紹介します。 ReLogはLDMを利用してロギングステートメントを生成し、実行し、評価し、洗練し、ランタイムログが下流タスクをよりサポートできるようにします。開発者記述のログと比較する代わりに、欠陥のローカライゼーションや修復など、下流のデバッグタスクを通じてReLogを評価します。直接および間接のデバッグ設定の両方でDefects4Jに基づくベンチマークを構築した。結果は、ReLogがすべてのベースラインを一貫して上回り、F1スコアが0.520で、直接設定で97の欠陥を修復し、ソースコードが利用できない間接設定で最高のF1スコアが0.408であることを示している。複数のLSMにまたがる追加実験は、フレームワークの汎用性を実証する一方で、反復的な洗練とコンパイルの修正の重要性を証明している。全体的に、当社の作業は、ロギングを実行時にガイドされたタスク指向のプロセスとして再設計し、テキストの類似性ではなく、下流ユーティリティによるログ評価を推奨しています。

関連論文リスト

LLM-SrcLog: Towards Proactive and Unified Log Template Extraction via Large Language Models [19.933913707655467]
LLM-SrcLogは、ログテンプレート解析のためのプロアクティブで統一されたフレームワークである。デプロイ前にソースコードから直接テンプレートを抽出する。利用可能なコードなしでログのデータ駆動解析を補完する。
論文参考訳（メタデータ） (2025-12-04T05:30:15Z)
InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文参考訳（メタデータ） (2025-10-21T06:26:29Z)
D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。 D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文参考訳（メタデータ） (2025-06-11T19:09:08Z)
AL-Bench: A Benchmark for Automatic Logging [3.8293110324859505]
自動ロギングツールに特化して設計されたベンチマークであるAL-Benchを紹介する。 AL-Benchには、広く認識されている10のプロジェクトから収集された、大規模で高品質で多様なデータセットが含まれている。ソースコードレベルでの従来の静的評価に加えて、ロギング品質のランタイム視点を提供する。
論文参考訳（メタデータ） (2025-02-05T13:32:39Z)
HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文参考訳（メタデータ） (2024-08-15T17:54:31Z)
LogUpdater: Automated Detection and Repair of Specific Defects in Logging Statements [29.631530836349505]
開発者はロギングステートメントを使用して、ソフトウェアランタイムの動作とシステムステータスを追跡する。不正あるいは誤解を招くログは、真の実行パターンを隠蔽し、ソフトウェアのメンテナンスを妨げる可能性がある。ログ中心の変化を分析することによって,4種類のログステートメント欠陥を識別する研究を行う。 LogUpdaterは、これらのログ欠陥を自動的に検出し、更新するフレームワークです。
論文参考訳（メタデータ） (2024-08-06T11:04:37Z)
Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。 FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文参考訳（メタデータ） (2023-07-13T17:14:38Z)
Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study [32.53659676826846]
本稿では,ログステートメント生成のための大規模言語モデル (LLM) に関する最初の研究を行う。まず、ログステートメント生成データセットであるLogBenchを構築しました。(1)LogBench-O:GitHubリポジトリから収集したログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードです。
論文参考訳（メタデータ） (2023-07-12T06:32:51Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。 1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文参考訳（メタデータ） (2022-04-06T07:02:23Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。