論文の概要: An Enhanced Text Compression Approach Using Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2412.15250v1
- Date: Sun, 15 Dec 2024 03:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-29 08:00:10.712008
- Title: An Enhanced Text Compression Approach Using Transformer-based Language Models
- Title(参考訳): 変圧器に基づく言語モデルを用いたテキスト圧縮手法
- Authors: Chowdhury Mofizur Rahman, Mahbub E Sobhani, Anika Tasnim Rodela, Swakkhar Shatabda,
- Abstract要約: テキスト圧縮のための変換器ベースのRejuvenateFormeを提案する。
我々の精巧な前処理技術はLe-Ziv-Welchアルゴリズムを取り入れている。
RejuvenateFormeは、EN-DE、EN-FR、BookCorpus corporaのBLEUスコアが27.31、25.78、50.45に達した。
- 参考スコア(独自算出の注目度): 1.2937020918620652
- License:
- Abstract: Text compression shrinks textual data while keeping crucial information, eradicating constraints on storage, bandwidth, and computational efficacy. The integration of lossless compression techniques with transformer-based text decompression has received negligible attention, despite the increasing volume of English text data in communication. The primary barrier in advancing text compression and restoration involves optimizing transformer-based approaches with efficient pre-processing and integrating lossless compression algorithms, that remained unresolved in the prior attempts. Here, we propose a transformer-based method named RejuvenateForme for text decompression, addressing prior issues by harnessing a new pre-processing technique and a lossless compression method. Our meticulous pre-processing technique incorporating the Lempel-Ziv-Welch algorithm achieves compression ratios of 12.57, 13.38, and 11.42 on the BookCorpus, EN-DE, and EN-FR corpora, thus showing state-of-the-art compression ratios compared to other deep learning and traditional approaches. Furthermore, the RejuvenateForme achieves a BLEU score of 27.31, 25.78, and 50.45 on the EN-DE, EN-FR, and BookCorpus corpora, showcasing its comprehensive efficacy. In contrast, the pre-trained T5-Small exhibits better performance over prior state-of-the-art models.
- Abstract(参考訳): テキスト圧縮は、重要な情報を保持しながらテキストデータを縮小し、ストレージ、帯域幅、計算効率の制約を根絶する。
コミュニケーションにおける英語テキストデータの量の増加にもかかわらず、無損失圧縮技術とトランスフォーマーベースのテキスト圧縮の統合は無視できない注目を集めている。
テキスト圧縮と復元を前進させる主要な障壁は、トランスフォーマーベースのアプローチを効率的な前処理で最適化し、損失のない圧縮アルゴリズムを統合することであり、これは以前の試みでは未解決のままであった。
本稿では,テキストの非圧縮にRejuvenateFormeというトランスフォーマーを用いた手法を提案する。
Lempel-Ziv-Welchアルゴリズムを組み込んだ厳密な事前処理技術により,BookCorpus,EN-DE,EN-FRコーパスにおける12.57,13.38,11.42の圧縮比が得られる。
さらに、RejuvenateFormeは、EN-DE、EN-FR、BookCorpus corporaのBLEUスコアが27.31、25.78、50.45に達した。
対照的に、事前訓練されたT5-Smallは、以前の最先端モデルよりも優れた性能を示している。
関連論文リスト
- An Enhancement of Jiang, Z., et al.s Compression-Based Classification Algorithm Applied to News Article Categorization [0.0]
本研究は,テキスト間の意味的類似性を検出する際の限界に対処することで,Jiangらによる圧縮に基づく分類アルゴリズムを強化する。
提案された改善は、ユニグラム抽出と最適化された結合に焦点を当て、ドキュメント全体の圧縮への依存を排除した。
さまざまなサイズと複雑さのデータセットに対する実験の結果、平均精度は5.73%向上し、長いドキュメントを含むデータセットでは最大11%向上した。
論文 参考訳(メタデータ) (2025-02-20T10:50:59Z) - AlphaZip: Neural Network-Enhanced Lossless Text Compression [0.0]
本稿では,Large Language Model (LLM) を用いたロスレステキスト圧縮手法を提案する。
第一に、トランスフォーマーブロックのような高密度ニューラルネットワークアーキテクチャを使用した予測、第二に、予測ランクをAdaptive Huffman、LZ77、Gzipといった標準的な圧縮アルゴリズムで圧縮する。
論文 参考訳(メタデータ) (2024-09-23T14:21:06Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - Reducing The Amortization Gap of Entropy Bottleneck In End-to-End Image
Compression [2.1485350418225244]
エンド・ツー・エンドのディープ・トレーニング可能なモデルは、ビデオや画像の従来の手作り圧縮技術の性能をほぼ上回っている。
本稿では,このアモート化ギャップを小さなコストで低減する,シンプルで効率的なインスタンスベースのパラメータ化手法を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:43:45Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - On Effects of Compression with Hyperdimensional Computing in Distributed
Randomized Neural Networks [6.25118865553438]
ランダム化ニューラルネットワークと超次元計算に基づく分散分類モデルを提案する。
本研究では,従来の圧縮アルゴリズムや次元減少,量子化技術と比較し,より柔軟な圧縮手法を提案する。
論文 参考訳(メタデータ) (2021-06-17T22:02:40Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。