論文の概要: SchemaCoder: Automatic Log Schema Extraction Coder with Residual Q-Tree Boosting
- arxiv url: http://arxiv.org/abs/2508.18554v1
- Date: Mon, 25 Aug 2025 23:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.625504
- Title: SchemaCoder: Automatic Log Schema Extraction Coder with Residual Q-Tree Boosting
- Title(参考訳): SchemaCoder: 残留Q-Treeブースティングを備えた自動ログスキーマ抽出コーダ
- Authors: Lily Jiaxin Wan, Chia-Tung Ho, Rongjian Liang, Cunxi Yu, Deming Chen, Haoxing Ren,
- Abstract要約: 我々は、幅広いログファイルフォーマットのための完全に自動化されたスキーマ抽出フレームワーク、Coderを紹介した。
Coderの中核には、スキーマ抽出を反復的に洗練する新しいResidual-Tree (Q-Tree) Boostingメカニズムがある。
提案手法は,コンテキスト境界セグメンテーションを用いてログをセマンティックチャンクに分割し,埋め込み型サンプリングを用いて代表パターンを選択し,階層的なQ-Tree型クエリによってスキーマコードを生成する。
- 参考スコア(独自算出の注目度): 14.204656295848357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Log schema extraction is the process of deriving human-readable templates from massive volumes of log data, which is essential yet notoriously labor-intensive. Recent studies have attempted to streamline this task by leveraging Large Language Models (LLMs) for automated schema extraction. However, existing methods invariably rely on predefined regular expressions, necessitating human domain expertise and severely limiting productivity gains. To fundamentally address this limitation, we introduce SchemaCoder, the first fully automated schema extraction framework applicable to a wide range of log file formats without requiring human customization within the flow. At its core, SchemaCoder features a novel Residual Question-Tree (Q-Tree) Boosting mechanism that iteratively refines schema extraction through targeted, adaptive queries driven by LLMs. Particularly, our method partitions logs into semantic chunks via context-bounded segmentation, selects representative patterns using embedding-based sampling, and generates schema code through hierarchical Q-Tree-driven LLM queries, iteratively refined by our textual-residual evolutionary optimizer and residual boosting. Experimental validation demonstrates SchemaCoder's superiority on the widely-used LogHub-2.0 benchmark, achieving an average improvement of 21.3% over state-of-the-arts.
- Abstract(参考訳): ログスキーマ抽出は、大量のログデータから可読テンプレートを抽出するプロセスである。
近年の研究では,Large Language Models (LLMs) を利用して自動スキーマ抽出を行うことにより,このタスクの合理化が試みられている。
しかし、既存の手法は、事前に定義された正規表現に依存し、人間のドメインの専門知識を必要とし、生産性の向上を著しく制限する。
この制限を根本的に解決するために、フロー内での人間のカスタマイズを必要とせずに、幅広いログファイルフォーマットに適用可能な、最初の完全に自動化されたスキーマ抽出フレームワークであるSchemaCoderを紹介します。
SchemaCoderの中核となるのは、新しいResidual Question-Tree (Q-Tree) Boostingメカニズムで、LLMによって駆動されるターゲットの適応クエリを通じて、スキーマ抽出を反復的に洗練する。
特に,コンテキスト境界セグメンテーションを用いてログをセマンティックチャンクに分割し,埋め込みに基づくサンプリングを用いて代表パターンを選択し,階層的なQ-Tree-driven LLMクエリを通じてスキーマコードを生成する。
実験的な検証は、広く使用されているLogHub-2.0ベンチマークにおけるSchemaCoderの優位性を示し、最先端技術よりも21.3%の平均的な改善を実現している。
関連論文リスト
- Hierarchical Quantized Diffusion Based Tree Generation Method for Hierarchical Representation and Lineage Analysis [49.00783841494125]
HDTreeは階層的潜在空間内の木関係を、統一的な階層的コードブックと量子化拡散プロセスを用いてキャプチャする。
HDTreeの有効性は、汎用データセットと単一セルデータセットの比較によって示される。
これらの貢献は階層的な系統解析のための新しいツールを提供し、より正確で効率的な細胞分化経路のモデリングを可能にする。
論文 参考訳(メタデータ) (2025-06-29T15:19:13Z) - SchemaAgent: A Multi-Agents Framework for Generating Relational Database Schema [35.57815867567431]
既存の取り組みは主に、カスタマイズされたルールや従来のディープラーニングモデルに基づいており、しばしばリレーショナルスキーマを生成する。
高品質データベーススキーマの自動生成のための統一LLMベースのマルチエージェントフレームワークを提案する。
我々は、様々な段階にわたる問題の正当性を特定するために、リフレクションとインスペクションのための専用の役割と、革新的なエラー検出と修正機構を組み込んだ。
論文 参考訳(メタデータ) (2025-03-31T09:39:19Z) - RASD: Retrieval-Augmented Speculative Decoding [5.3926068062773895]
投機的復号化は大規模言語モデル(LLM)における推論を加速する
本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-03-05T12:10:14Z) - Effective Instruction Parsing Plugin for Complex Logical Query Answering on Knowledge Graphs [51.33342412699939]
知識グラフクエリ埋め込み(KGQE)は、不完全なKGに対する複雑な推論のために、低次元KG空間に一階論理(FOL)クエリを埋め込むことを目的としている。
近年の研究では、FOLクエリの論理的セマンティクスをよりよく捉えるために、さまざまな外部情報(エンティティタイプや関係コンテキストなど)を統合している。
コードのようなクエリ命令から遅延クエリパターンをキャプチャする効果的なクエリ命令解析(QIPP)を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:18:52Z) - Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction [12.455647753787442]
抽出・デファイン・カノニケーズ(EDC)という3相フレームワークを提案する。
EDCはフレキシブルで、事前に定義されたターゲットスキーマが利用可能で、そうでない場合に適用される。
EDCがパラメータチューニングなしで高品質な三重項を抽出できることを実証する。
論文 参考訳(メタデータ) (2024-04-05T02:53:51Z) - Lemur: Log Parsing with Entropy Sampling and Chain-of-Thought Merging [18.823038918091207]
我々は、textbfEntropy サンプリングとチェーン・オブ・シンクトの textbfMerging (model) を用いた最先端の textbfLog 解析フレームワークを導入する。
退屈な手作業のルールを捨てるために,情報エントロピーにインスパイアされた新しいサンプリング手法を提案し,典型的なログを効率的にクラスタリングする。
大規模な公開データセットの実験を行った。
論文 参考訳(メタデータ) (2024-02-28T09:51:55Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。