Fugu-MT 論文翻訳(概要): Do AI Coding Agents Log Like Humans? An Empirical Study

論文の概要: Do AI Coding Agents Log Like Humans? An Empirical Study

arxiv url: http://arxiv.org/abs/2604.09409v1
Date: Fri, 10 Apr 2026 15:22:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.926092
Title: Do AI Coding Agents Log Like Humans? An Empirical Study
Title（参考訳）: AIのコーディングエージェントは人間に似ているか? 実証研究
Authors: Youssef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan,
Abstract要約: 81のオープンソースリポジトリにわたる4,550件のエージェントプルリクエストについて,実証的研究を行った。 58.4%のリポジトリでは、エージェントは人間よりもログを変更せず、ログ密度が高い。レビューフィードバックなしでログと可観測性の問題を修正する「サイレント管理人」として,人間が72.5%のログ修復を行うのを観察した。
参考スコア（独自算出の注目度）: 7.650932309932137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software logging is essential for maintaining and debugging complex systems, yet it remains unclear how AI coding agents handle this non-functional requirement. While prior work characterizes human logging practices, the behaviors of AI coding agents and the efficacy of natural language instructions in governing them are unexplored. To address this gap, we conduct an empirical study of 4,550 agentic pull requests across 81 open-source repositories. We compare agent logging patterns against human baselines and analyze the impact of explicit logging instructions. We find that agents change logging less often than humans in 58.4% of repositories, though they exhibit higher log density when they do. Furthermore, explicit logging instructions are rare (4.7%) and ineffective, as agents fail to comply with constructive requests 67% of the time. Finally, we observe that humans perform 72.5% of post-generation log repairs, acting as "silent janitors" who fix logging and observability issues without explicit review feedback. These findings indicate a dual failure in natural language instruction (i.e., scarcity of logging instructions and low agent compliance), suggesting that deterministic guardrails might be necessary to ensure consistent logging practices.
Abstract（参考訳）: 複雑なシステムのメンテナンスとデバッグにはソフトウェアロギングが不可欠だが、AIコーディングエージェントがこの非機能要件をどのように扱うのかは、まだ不明だ。以前の作業では、人間のロギングの実践を特徴づける一方で、AIコーディングエージェントの振る舞いと、それらを管理するための自然言語命令の有効性は未調査である。このギャップに対処するため、81のオープンソースリポジトリにわたる4,550件のエージェント的プルリクエストを実証研究した。エージェントロギングパターンを人間のベースラインと比較し、明示的なロギング命令の影響を分析する。 58.4%のリポジトリでは、エージェントは人間よりもログを変更せず、ログ密度が高い。さらに、明示的なロギング命令はまれで(4.7%)、エージェントが建設的な要求に従わなかったため、効果がない。最後に、人間が72.5%のポストジェネレーションログの修復を行い、明確なレビューフィードバックなしでログや可観測性の問題を修正する「サイレント管理人」として機能することを観察する。これらの結果は、自然言語命令の二重失敗(つまり、ロギング命令の不足とエージェントコンプライアンスの低さ)を示唆し、一貫したロギングの慣行を保証するためには決定論的ガードレールが必要であることを示唆している。

関連論文リスト

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文参考訳（メタデータ） (2026-03-15T16:13:58Z)
Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。モデル、足場、ベンチマークにまたがる3次元解析を行う。私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文参考訳（メタデータ） (2025-10-13T22:22:28Z)
Automated File-Level Logging Generation for Machine Learning Applications using LLMs: A Case Study using GPT-4o Mini [3.076436880934678]
我々は、GPT-4o miniのファイルレベルでの機械学習プロジェクトのためのログステートメントを生成する能力を評価した。 LLMは63.91%のケースで人間と同じ場所にログを導入しているが、高いオーバーログ率は82.66%である。
論文参考訳（メタデータ） (2025-08-06T18:57:51Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
LogUpdater: Automated Detection and Repair of Specific Defects in Logging Statements [29.631530836349505]
開発者はロギングステートメントを使用して、ソフトウェアランタイムの動作とシステムステータスを追跡する。不正あるいは誤解を招くログは、真の実行パターンを隠蔽し、ソフトウェアのメンテナンスを妨げる可能性がある。ログ中心の変化を分析することによって,4種類のログステートメント欠陥を識別する研究を行う。 LogUpdaterは、これらのログ欠陥を自動的に検出し、更新するフレームワークです。
論文参考訳（メタデータ） (2024-08-06T11:04:37Z)
Interpretable Online Log Analysis Using Large Language Models with Prompt Strategies [25.71982260940313]
オンラインシナリオのための新しい解釈可能なログ解析手法であるLogPromptを提案する。 LogPromptは大規模言語モデル(LLM)を使用して,高度なプロンプト戦略のスイートを通じて,オンラインログ解析タスクを実行する。 LogPromptはドメイン内のトレーニングを必要としないが、数千のログでトレーニングされた既存のアプローチを最大55.9%上回っている。
論文参考訳（メタデータ） (2023-08-15T07:40:21Z)
Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。 1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文参考訳（メタデータ） (2022-04-06T07:02:23Z)
Borrowing from Similar Code: A Deep Learning NLP-Based Approach for Log Statement Automation [0.0]
ログステートメントの位置を予測するために,更新および改良されたログ対応コードクローン検出手法を提案する。我々は,自然言語処理(NLP)と深層学習手法を組み込んで,ログステートメントの記述予測を自動化する。解析の結果、我々のハイブリッドNLPとコードクローン検出手法(NLP CC'd)は、ログステートメントの場所を見つける際に従来のクローン検出器よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-12-02T14:03:49Z)
LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文参考訳（メタデータ） (2021-11-02T15:16:08Z)
Leveraging Code Clones and Natural Language Processing for Log Statement Prediction [0.0]
本研究の目的は、ソースコードクローンと自然言語処理(NLP)を利用してログステートメントを予測することである。本研究は,ログの自動位置検出と記述予測におけるログ認識型クローン検出の有効性を示す。
論文参考訳（メタデータ） (2021-09-08T18:17:45Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。