論文の概要: LogSieve: Task-Aware CI Log Reduction for Sustainable LLM-Based Analysis
- arxiv url: http://arxiv.org/abs/2601.20148v1
- Date: Wed, 28 Jan 2026 00:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.709487
- Title: LogSieve: Task-Aware CI Log Reduction for Sustainable LLM-Based Analysis
- Title(参考訳): LogSieve: 持続可能なLCM分析のためのタスク対応CIログの削減
- Authors: Marcus Emmanuel Barnes, Taher A. Ghaleb, Safwat Hassan,
- Abstract要約: 軽量でRCA対応,セマンティックス対応のログリダクション技術であるLogSieveを提案する。
GitHub Actionsを使って、20のオープンソースプロジェクトのCIログで評価します。
平均42%の行の削減と40%のトークンの削減を実現し、セマンティックロスを最小限に抑える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logs are essential for understanding Continuous Integration (CI) behavior, particularly for diagnosing build failures and performance regressions. Yet their growing volume and verbosity make both manual inspection and automated analysis increasingly costly, time-consuming, and environmentally costly. While prior work has explored log compression, anomaly detection, and LLM-based log analysis, most efforts target structured system logs rather than the unstructured, noisy, and verbose logs typical of CI workflows. We present LogSieve, a lightweight, RCA-aware and semantics-preserving log reduction technique that filters low-information lines while retaining content relevant to downstream reasoning. Evaluated on CI logs from 20 open-source Android projects using GitHub Actions, LogSieve achieves an average 42% reduction in lines and 40% reduction in tokens with minimal semantic loss. This pre-inference reduction lowers computational cost and can proportionally reduce energy use (and associated emissions) by decreasing the volume of data processed during LLM inference. Compared with structure-first baselines (LogZip and random-line removal), LogSieve preserves much higher semantic and categorical fidelity (Cosine = 0.93, GPTScore = 0.93, 80% exact-match accuracy). Embedding-based classifiers automate relevance detection with near-human accuracy (97%), enabling scalable and sustainable integration of semantics-aware filtering into CI workflows. LogSieve thus bridges log management and LLM reasoning, offering a practical path toward greener and more interpretable CI automation.
- Abstract(参考訳): ログは継続的統合(CI)の振る舞いを理解するのに不可欠です。
しかし、その量と冗長性の増加は、手作業による検査と自動分析の両方を、ますますコスト、時間、そして環境的にコストがかかるものにします。
以前の作業では、ログの圧縮、異常検出、LLMベースのログ分析が検討されていたが、ほとんどの取り組みは、CIワークフローに典型的な非構造化、ノイズ、冗長なログではなく、構造化されたシステムログをターゲットにしている。
ダウンストリーム推論に関連するコンテンツを保持しながら低情報ラインをフィルタリングする軽量なRCA対応・セマンティックス保存ログリダクション技術であるLogSieveを提案する。
GitHub Actionsを使用して20のオープンソースAndroidプロジェクトのCIログを評価すると、LogSieveは平均42%の行削減と40%のトークンの削減を実現し、セマンティックロスを最小限に抑えることができる。
この事前推論の削減は計算コストを削減し、LLM推論中に処理されるデータの量を減少させることで、エネルギー使用量(および関連する排出量)を比例的に削減することができる。
LogSieveは構造優先のベースライン(LogZipとランダムラインの削除)と比較すると、セマンティックとカテゴリの忠実度ははるかに高い(Cosine = 0.93, GPTScore = 0.93, 80%の精度)。
埋め込みベースの分類器は、ほぼ人間に近い精度(97%)で関連検出を自動化する。
LogSieveはログ管理とLLM推論をブリッジし、よりグリーンで解釈可能なCI自動化に向けた実践的なパスを提供する。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - R-Log: Incentivizing Log Analysis Capability in LLMs via Reasoning-based Reinforcement Learning [19.713020881817588]
R-Logは、人間のエンジニアの構造的、ステップバイステップの分析プロセスを反映した、推論に基づく新しいパラダイムである。
R-Logは、手動のO&Mプラクティスから13の戦略によってガイドされた、2k以上の推論トラジェクトリのキュレートデータセットで最初にコールドスタートされる。
実世界のログに対する実証的な評価は、R-Logが5つのログ解析タスクで既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-09-30T09:19:31Z) - System Log Parsing with Large Language Models: A Review [2.2779174914142346]
大規模言語モデル (LLM) はLLMに基づくログ解析の新しい研究分野を導入した。
有望な結果にもかかわらず、この比較的新しい研究分野におけるアプローチの構造化された概要は存在しない。
この研究は29 LLMベースのログ解析手法を体系的にレビューする。
論文 参考訳(メタデータ) (2025-04-07T09:41:04Z) - Adapting Large Language Models to Log Analysis with Interpretable Domain Knowledge [22.355668420639475]
ログ分析は、AIアプリケーションにおける重要なサブドメインである。
大規模言語モデル(LLM)を用いた既存のソリューションは、将来性を示しているが、自然言語とログ言語の間の大きなドメインギャップによって制限されている。
本稿では,解釈可能なドメイン知識をオープンソース LLM に統合することにより,これらの制限に対処するドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2024-12-02T11:05:31Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - LUNAR: Unsupervised LLM-based Log Parsing [34.344687402936835]
LUNARは,効率的かつ市販のログ解析のための教師なし手法である。
我々の重要な洞察は、LSMは直接ログ解析に苦労するかもしれないが、それらの性能は比較分析によって大幅に向上できるということである。
大規模な公開データセットの実験は、LUNARが精度と効率の点で最先端のログクラフトを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-11T11:32:01Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。