論文の概要: An Enhancement of Jiang, Z., et al.s Compression-Based Classification Algorithm Applied to News Article Categorization
- arxiv url: http://arxiv.org/abs/2502.14444v1
- Date: Thu, 20 Feb 2025 10:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:05.773381
- Title: An Enhancement of Jiang, Z., et al.s Compression-Based Classification Algorithm Applied to News Article Categorization
- Title(参考訳): ニュース記事分類に応用したJiang,Z.などの圧縮に基づく分類アルゴリズムの強化
- Authors: Sean Lester C. Benavides, Cid Antonio F. Masapol, Jonathan C. Morano, Dan Michael A. Cortez,
- Abstract要約: 本研究は,テキスト間の意味的類似性を検出する際の限界に対処することで,Jiangらによる圧縮に基づく分類アルゴリズムを強化する。
提案された改善は、ユニグラム抽出と最適化された結合に焦点を当て、ドキュメント全体の圧縮への依存を排除した。
さまざまなサイズと複雑さのデータセットに対する実験の結果、平均精度は5.73%向上し、長いドキュメントを含むデータセットでは最大11%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study enhances Jiang et al.'s compression-based classification algorithm by addressing its limitations in detecting semantic similarities between text documents. The proposed improvements focus on unigram extraction and optimized concatenation, eliminating reliance on entire document compression. By compressing extracted unigrams, the algorithm mitigates sliding window limitations inherent to gzip, improving compression efficiency and similarity detection. The optimized concatenation strategy replaces direct concatenation with the union of unigrams, reducing redundancy and enhancing the accuracy of Normalized Compression Distance (NCD) calculations. Experimental results across datasets of varying sizes and complexities demonstrate an average accuracy improvement of 5.73%, with gains of up to 11% on datasets containing longer documents. Notably, these improvements are more pronounced in datasets with high-label diversity and complex text structures. The methodology achieves these results while maintaining computational efficiency, making it suitable for resource-constrained environments. This study provides a robust, scalable solution for text classification, emphasizing lightweight preprocessing techniques to achieve efficient compression, which in turn enables more accurate classification.
- Abstract(参考訳): 本研究は,テキスト間の意味的類似性を検出する際の限界に対処することで,Jiangらによる圧縮に基づく分類アルゴリズムを強化する。
提案された改善は、文書圧縮全体への依存を排除し、ユニグラム抽出と最適化された結合に焦点を当てている。
抽出したユニグラムを圧縮することにより、アルゴリズムはgzip固有のスライディングウインドウ制限を緩和し、圧縮効率と類似度検出を改善した。
最適化された結合戦略は、ユニグラムの結合と直接結合を置き換え、冗長性を低減し、正規化圧縮距離(NCD)計算の精度を高める。
さまざまなサイズと複雑さのデータセットに対する実験の結果、平均精度は5.73%向上し、長いドキュメントを含むデータセットでは最大11%向上した。
特に、これらの改善は、高ラベルの多様性と複雑なテキスト構造を持つデータセットでより顕著である。
この手法は計算効率を保ちながらこれらの結果を達成し、資源に制約のある環境に適合する。
この研究は、テキスト分類のための堅牢でスケーラブルなソリューションを提供し、効率的な圧縮を実現するために軽量な前処理技術を強調し、それによってより正確な分類が可能になる。
関連論文リスト
- Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - A framework for compressing unstructured scientific data via serialization [2.5768995309704104]
本稿では,非構造化科学データを局所接続で圧縮するための一般的な枠組みを提案する。
一般的な応用は任意の有限要素メッシュ上で定義されたシミュレーションデータである。
このフレームワークは、既存のデータ処理パイプラインへのシームレスな統合を可能にする、オリジナルのノードの順序変更を保存する、欲張りなトポロジを採用している。
論文 参考訳(メタデータ) (2024-10-10T15:53:35Z) - Channel-wise Feature Decorrelation for Enhanced Learned Image Compression [16.638869231028437]
新たなLearnered Compression(LC)は、従来のモジュールをDeep Neural Networks(DNN)に置き換えるものだ。
本稿では,既存のDNN容量をフル活用して圧縮を改善することを提案する。
3つの戦略が提案され,(1)変換ネットワーク,(2)コンテキストモデル,(3)両ネットワークを最適化する。
論文 参考訳(メタデータ) (2024-03-16T14:30:25Z) - Lower Bounds and Accelerated Algorithms in Distributed Stochastic
Optimization with Communication Compression [31.107056382542417]
通信圧縮は通信オーバーヘッドを軽減するための重要な戦略である。
軽度条件下での圧縮のほぼ最適アルゴリズムであるNEOLITHICを提案する。
論文 参考訳(メタデータ) (2023-05-12T17:02:43Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - On Geodesic Distances and Contextual Embedding Compression for Text
Classification [0.0]
メモリ制限のある設定では、より小さなコンテキスト埋め込みを持つことが有利である。
コンテクスト埋め込みデータを多様体に投影し、非線形次元還元技術を用いてこれらの埋め込みを圧縮する効果を検討する。
特に,isomapとpcaの組み合わせを適用した新しい後処理手法を提案する。
論文 参考訳(メタデータ) (2021-04-22T19:30:06Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z) - Optimal Gradient Compression for Distributed and Federated Learning [9.711326718689492]
分散学習における計算ノード間の通信は、通常避けられない負担である。
通信効率の訓練アルゴリズムの最近の進歩は、圧縮技術を用いてボトルネックを減らしている。
本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2020-10-07T07:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。