Fugu-MT 論文翻訳(概要): Unlocking the Power of Numbers: Log Compression via Numeric Token Parsing

論文の概要: Unlocking the Power of Numbers: Log Compression via Numeric Token Parsing

arxiv url: http://arxiv.org/abs/2408.05760v1
Date: Sun, 11 Aug 2024 12:30:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 15:37:52.237115
Title: Unlocking the Power of Numbers: Log Compression via Numeric Token Parsing
Title（参考訳）: 数値の力を解き放つ:数値トークンパーシングによるログ圧縮
Authors: Siyu Yu, Yifan Wu, Ying Li, Pinjia He,
Abstract要約: 圧縮率と速度が高い単純な汎用ログ圧縮機であるDenumを提案する。具体的には、DenumにはToken Parsingモジュールが含まれており、すべての数値トークンを抽出し、カスタマイズされた処理方法を適用する。 16のログデータセットで評価され、平均圧縮比が8.7%、平均圧縮速度が2.6倍速くなる。
参考スコア（独自算出の注目度）: 18.419996813182163
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parser-based log compressors have been widely explored in recent years because the explosive growth of log volumes makes the compression performance of general-purpose compressors unsatisfactory. These parser-based compressors preprocess logs by grouping the logs based on the parsing result and then feed the preprocessed files into a general-purpose compressor. However, parser-based compressors have their limitations. First, the goals of parsing and compression are misaligned, so the inherent characteristics of logs were not fully utilized. In addition, the performance of parser-based compressors depends on the sample logs and thus it is very unstable. Moreover, parser-based compressors often incur a long processing time. To address these limitations, we propose Denum, a simple, general log compressor with high compression ratio and speed. The core insight is that a majority of the tokens in logs are numeric tokens (i.e. pure numbers, tokens with only numbers and special characters, and numeric variables) and effective compression of them is critical for log compression. Specifically, Denum contains a Numeric Token Parsing module, which extracts all numeric tokens and applies tailored processing methods (e.g. store the differences of incremental numbers like timestamps), and a String Processing module, which processes the remaining log content without numbers. The processed files of the two modules are then fed as input to a general-purpose compressor and it outputs the final compression results. Denum has been evaluated on 16 log datasets and it achieves an 8.7%-434.7% higher average compression ratio and 2.6x-37.7x faster average compression speed (i.e. 26.2MB/S) compared to the baselines. Moreover, integrating Denum's Numeric Token Parsing into existing log compressors can provide an 11.8% improvement in their average compression ratio and achieve 37% faster average compression speed.
Abstract（参考訳）: 近年, 対数体積の爆発的増加が汎用圧縮機の圧縮性能を損なうため, 対数圧縮機は広く研究されている。これらのパーサベースの圧縮機は、解析結果に基づいてログをグループ化し、その前処理されたファイルを汎用圧縮機に供給する。しかし、パーサベースの圧縮機には限界がある。まず、解析と圧縮の目標が一致していないため、ログ固有の特性は十分に利用されなかった。さらに、パーサベースの圧縮機の性能はサンプルログに依存するため、非常に不安定である。さらに、パーサベースの圧縮機は長い処理時間を要することが多い。これらの制約に対処するため、圧縮率と速度が高い単純で汎用的なログ圧縮機であるDenumを提案する。コアとなる洞察は、ログのトークンの大部分は数値トークン(純粋数、数字と特殊文字のみを持つトークン、数値変数)であり、それらの効率的な圧縮はログの圧縮に不可欠であるということである。具体的には、Denumには、すべての数値トークンを抽出し、調整された処理方法(例えば、タイムスタンプのようなインクリメンタルな数値の違いを格納する)を適用する数値トークンパーシングモジュールと、残るログコンテンツを数値なしで処理する文字列処理モジュールが含まれている。そして、2つのモジュールの処理されたファイルが汎用圧縮機への入力として送られ、最終的な圧縮結果が出力される。 16のログデータセットで評価され、平均圧縮比は8.7%-434.7%、平均圧縮速度は2.6x-37.7倍(26.2MB/S)である。さらに、DenumのNumeric Token Parsingを既存のログ圧縮機に統合することで、平均圧縮比が11.8%向上し、平均圧縮速度が37%向上する。

関連論文リスト

R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。 CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文参考訳（メタデータ） (2025-05-22T16:06:59Z)
MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores [5.893964327109089]
MOOSCompはトークン分類に基づく長文圧縮方式である。タスク非依存圧縮において破棄されがちな希少だが重要なトークンを保存するために、外れ値を導入する。本手法は,資源制約されたモバイルデバイス上での4倍圧縮率で3.3倍の高速化を実現する。
論文参考訳（メタデータ） (2025-04-23T15:02:53Z)
L3TC: Leveraging RWKV for Learned Lossless Low-Complexity Text Compression [23.179381396167084]
我々はLearned Lossless Low-complexity Text Compression Method (L3TC)を紹介する。 RWKVモデルは、適度な圧縮比で高速な復号速度を達成する。本稿では,頻繁なトークンをカバーするために,限定語彙を用いた外部認識トークン化手法を提案する。
論文参考訳（メタデータ） (2024-12-21T14:24:32Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。 Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文参考訳（メタデータ） (2024-10-17T21:35:49Z)
Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。 API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-07-02T08:17:00Z)
Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2024-06-20T10:23:38Z)
What Operations can be Performed Directly on Compressed Arrays, and with What Error? [1.3307486544794784]
我々は、圧縮されたデータに直接、数十のかなり基本的な操作を可能にする、損失のある圧縮機を開発した。 3つの非自明なアプリケーション上で評価し、内部表現のために異なる数系を選択する。
論文参考訳（メタデータ） (2024-06-17T05:01:09Z)
Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文参考訳（メタデータ） (2024-04-04T17:48:28Z)
LogShrink: Effective Log Compression by Leveraging Commonality and Variability of Log Data [35.5712445690333]
本稿では,ログデータの共通性と可変性を生かした,新規かつ効果的なログ圧縮手法であるLogShrinkを提案する。ログメッセージにおける潜時的な共通性と変動性を特定するために, 最長のコモンシーケンスとエントロピーに基づく解析器を提案する。この背景にある重要な考え方は、共通性と可変性を利用して、より短い表現でログデータを縮小できるということだ。
論文参考訳（メタデータ） (2023-09-18T04:27:05Z)
DiffRate : Differentiable Compression Rate for Efficient Vision Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。 DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文参考訳（メタデータ） (2023-05-29T10:15:19Z)
Partition and Code: learning how to compress graphs [50.29024357495154]
まず、分割アルゴリズムがグラフを基本構造に分解し、これらを確率分布を学習する小さな辞書の要素にマッピングし、エントロピーエンコーダが表現をビットに変換する。提案アルゴリズムは,非パラメトリックおよびパラメトリックグラフ圧縮器の異なるファミリーに対して,多種多様な実世界のネットワーク上で定量的に評価し,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2021-07-05T11:41:16Z)
Optimal Gradient Compression for Distributed and Federated Learning [9.711326718689492]
分散学習における計算ノード間の通信は、通常避けられない負担である。通信効率の訓練アルゴリズムの最近の進歩は、圧縮技術を用いてボトルネックを減らしている。本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。
論文参考訳（メタデータ） (2020-10-07T07:58:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。