論文の概要: An Enhancement of Jiang, Z., et al.s Compression-Based Classification Algorithm Applied to News Article Categorization
- arxiv url: http://arxiv.org/abs/2502.14444v1
- Date: Thu, 20 Feb 2025 10:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:05.773381
- Title: An Enhancement of Jiang, Z., et al.s Compression-Based Classification Algorithm Applied to News Article Categorization
- Title(参考訳): ニュース記事分類に応用したJiang,Z.などの圧縮に基づく分類アルゴリズムの強化
- Authors: Sean Lester C. Benavides, Cid Antonio F. Masapol, Jonathan C. Morano, Dan Michael A. Cortez,
- Abstract要約: 本研究は,テキスト間の意味的類似性を検出する際の限界に対処することで,Jiangらによる圧縮に基づく分類アルゴリズムを強化する。
提案された改善は、ユニグラム抽出と最適化された結合に焦点を当て、ドキュメント全体の圧縮への依存を排除した。
さまざまなサイズと複雑さのデータセットに対する実験の結果、平均精度は5.73%向上し、長いドキュメントを含むデータセットでは最大11%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study enhances Jiang et al.'s compression-based classification algorithm by addressing its limitations in detecting semantic similarities between text documents. The proposed improvements focus on unigram extraction and optimized concatenation, eliminating reliance on entire document compression. By compressing extracted unigrams, the algorithm mitigates sliding window limitations inherent to gzip, improving compression efficiency and similarity detection. The optimized concatenation strategy replaces direct concatenation with the union of unigrams, reducing redundancy and enhancing the accuracy of Normalized Compression Distance (NCD) calculations. Experimental results across datasets of varying sizes and complexities demonstrate an average accuracy improvement of 5.73%, with gains of up to 11% on datasets containing longer documents. Notably, these improvements are more pronounced in datasets with high-label diversity and complex text structures. The methodology achieves these results while maintaining computational efficiency, making it suitable for resource-constrained environments. This study provides a robust, scalable solution for text classification, emphasizing lightweight preprocessing techniques to achieve efficient compression, which in turn enables more accurate classification.
- Abstract(参考訳): 本研究は,テキスト間の意味的類似性を検出する際の限界に対処することで,Jiangらによる圧縮に基づく分類アルゴリズムを強化する。
提案された改善は、文書圧縮全体への依存を排除し、ユニグラム抽出と最適化された結合に焦点を当てている。
抽出したユニグラムを圧縮することにより、アルゴリズムはgzip固有のスライディングウインドウ制限を緩和し、圧縮効率と類似度検出を改善した。
最適化された結合戦略は、ユニグラムの結合と直接結合を置き換え、冗長性を低減し、正規化圧縮距離(NCD)計算の精度を高める。
さまざまなサイズと複雑さのデータセットに対する実験の結果、平均精度は5.73%向上し、長いドキュメントを含むデータセットでは最大11%向上した。
特に、これらの改善は、高ラベルの多様性と複雑なテキスト構造を持つデータセットでより顕著である。
この手法は計算効率を保ちながらこれらの結果を達成し、資源に制約のある環境に適合する。
この研究は、テキスト分類のための堅牢でスケーラブルなソリューションを提供し、効率的な圧縮を実現するために軽量な前処理技術を強調し、それによってより正確な分類が可能になる。
関連論文リスト
- Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:11:40Z) - Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。
我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文 参考訳(メタデータ) (2024-12-21T00:40:58Z) - An Enhanced Text Compression Approach Using Transformer-based Language Models [1.2937020918620652]
テキスト圧縮のための変換器ベースのRejuvenateFormeを提案する。
我々の精巧な前処理技術はLe-Ziv-Welchアルゴリズムを取り入れている。
RejuvenateFormeは、EN-DE、EN-FR、BookCorpus corporaのBLEUスコアが27.31、25.78、50.45に達した。
論文 参考訳(メタデータ) (2024-12-15T03:01:17Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - A framework for compressing unstructured scientific data via serialization [2.5768995309704104]
本稿では,非構造化科学データを局所接続で圧縮するための一般的な枠組みを提案する。
一般的な応用は任意の有限要素メッシュ上で定義されたシミュレーションデータである。
このフレームワークは、既存のデータ処理パイプラインへのシームレスな統合を可能にする、オリジナルのノードの順序変更を保存する、欲張りなトポロジを採用している。
論文 参考訳(メタデータ) (2024-10-10T15:53:35Z) - Channel-wise Feature Decorrelation for Enhanced Learned Image Compression [16.638869231028437]
新たなLearnered Compression(LC)は、従来のモジュールをDeep Neural Networks(DNN)に置き換えるものだ。
本稿では,既存のDNN容量をフル活用して圧縮を改善することを提案する。
3つの戦略が提案され,(1)変換ネットワーク,(2)コンテキストモデル,(3)両ネットワークを最適化する。
論文 参考訳(メタデータ) (2024-03-16T14:30:25Z) - Lower Bounds and Accelerated Algorithms in Distributed Stochastic
Optimization with Communication Compression [31.107056382542417]
通信圧縮は通信オーバーヘッドを軽減するための重要な戦略である。
軽度条件下での圧縮のほぼ最適アルゴリズムであるNEOLITHICを提案する。
論文 参考訳(メタデータ) (2023-05-12T17:02:43Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z) - Optimal Gradient Compression for Distributed and Federated Learning [9.711326718689492]
分散学習における計算ノード間の通信は、通常避けられない負担である。
通信効率の訓練アルゴリズムの最近の進歩は、圧縮技術を用いてボトルネックを減らしている。
本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2020-10-07T07:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。