論文の概要: Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification
- arxiv url: http://arxiv.org/abs/2601.07790v1
- Date: Mon, 12 Jan 2026 18:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.731358
- Title: Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification
- Title(参考訳): システムログ重大度分類に基づく小言語モデルと小推論言語モデルのベンチマーク
- Authors: Yahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang,
- Abstract要約: 最終タスクとしてではなく,実行時ログ理解のためのベンチマークとして扱われる場合,重大度分類の方が有益である,と我々は主張する。
9つの小言語モデル (SLM) と小推論言語モデル (SRLM) をゼロショット, 少数ショット, 検索強化世代 (RAG) のプロンプトで評価した。
- 参考スコア(独自算出の注目度): 3.192782465393035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: System logs are crucial for monitoring and diagnosing modern computing infrastructure, but their scale and complexity require reliable and efficient automated interpretation. Since severity levels are predefined metadata in system log messages, having a model merely classify them offers limited standalone practical value, revealing little about its underlying ability to interpret system logs. We argue that severity classification is more informative when treated as a benchmark for probing runtime log comprehension rather than as an end task. Using real-world journalctl data from Linux production servers, we evaluate nine small language models (SLMs) and small reasoning language models (SRLMs) under zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting. The results reveal strong stratification. Qwen3-4B achieves the highest accuracy at 95.64% with RAG, while Gemma3-1B improves from 20.25% under few-shot prompting to 85.28% with RAG. Notably, the tiny Qwen3-0.6B reaches 88.12% accuracy despite weak performance without retrieval. In contrast, several SRLMs, including Qwen3-1.7B and DeepSeek-R1-Distill-Qwen-1.5B, degrade substantially when paired with RAG. Efficiency measurements further separate models: most Gemma and Llama variants complete inference in under 1.2 seconds per log, whereas Phi-4-Mini-Reasoning exceeds 228 seconds per log while achieving <10% accuracy. These findings suggest that (1) architectural design, (2) training objectives, and (3) the ability to integrate retrieved context under strict output constraints jointly determine performance. By emphasizing small, deployable models, this benchmark aligns with real-time requirements of digital twin (DT) systems and shows that severity classification serves as a lens for evaluating model competence and real-time deployability, with implications for root cause analysis (RCA) and broader DT integration.
- Abstract(参考訳): システムログは現代のコンピューティングインフラストラクチャの監視と診断には不可欠だが、そのスケールと複雑さは信頼性と効率的な自動解釈を必要とする。
重大度レベルはシステムログメッセージで事前に定義されたメタデータであるため、モデルを単に分類するだけで、スタンドアロンの実践的価値が制限され、システムログを解釈する能力についてはほとんど語られません。
最終タスクとしてではなく,実行時ログ理解のためのベンチマークとして扱われる場合,重大度分類の方が有益である,と我々は主張する。
実世界のLinuxプロダクションサーバのジャーナクルデータを用いて、ゼロショット、少数ショット、検索強化世代(RAG)のプロンプトにより、9つの小言語モデル(SLM)と小推論言語モデル(SRLM)を評価する。
その結果、強い成層感が浮かび上がった。
Qwen3-4BはRAGで95.64%、Gemma3-1Bは20.25%に改善され、RAGで85.28%となる。
特に、小型のQwen3-0.6Bは、検索なしで性能が弱いにもかかわらず88.12%の精度に達する。
対照的に、Qwen3-1.7BやDeepSeek-R1-Distill-Qwen-1.5Bを含むいくつかのSRLMはRAGと組み合わせると大幅に劣化する。
多くのGemmaとLlamaの変種は1ログあたり1.2秒未満で推論を完了しているが、Phi-4-Mini-Reasoningは1ログあたり228秒を超え、精度は10%である。
これらの結果から,(1)建築設計,(2)訓練目標,(3)厳密な出力制約の下で抽出したコンテキストを統合することで,性能を共同で決定できることが示唆された。
小型でデプロイ可能なモデルを強調することにより、このベンチマークは、デジタルツイン(DT)システムのリアルタイム要件と整合し、厳密な分類が、根本原因分析(RCA)と広範なDT統合に影響を及ぼす、モデル能力とリアルタイムデプロイ性を評価するためのレンズとして機能することを示す。
関連論文リスト
- Less Is More: An Explainable AI Framework for Lightweight Malaria Classification [0.0]
この研究は、複雑なニューラルネットワークがマラリアの単純な二分分類タスクに不可欠であるかどうかを論じる。
本稿では,透過的で再現性があり,低計算機械学習アプローチであるExptracted Morphological Feature Engineered (EMFE)パイプラインを紹介する。
論文 参考訳(メタデータ) (2025-11-22T14:46:59Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - An Empirical Study of SOTA RCA Models: From Oversimplified Benchmarks to Realistic Failures [16.06503310632004]
我々は,4つの広く使用されているベンチマークにおいて,単純なルールベースの手法が最先端(SOTA)モデルに適合するか,あるいは性能に優れていることを示す。
私たちの分析では、スケーラビリティの問題、可観測性の盲点、モデリングボトルネックの3つの一般的な障害パターンを強調しています。
論文 参考訳(メタデータ) (2025-10-06T11:30:03Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - AnomalyGen: An Automated Semantic Log Sequence Generation Framework with LLM for Anomaly Detection [25.83270938475311]
AnomalyGenは、異常検出用に特別に設計された最初の自動ログ合成フレームワークである。
本フレームワークは,プログラム解析とChain-of-Thought推論(CoT推論)を統合し,反復的なログ生成と異常アノテーションを実現する。
合成ログでベンチマークデータセットを増大させると、最大F1スコアの3.7%の改善が観測される。
論文 参考訳(メタデータ) (2025-04-16T16:54:38Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。