論文の概要: Optimal alphabet for single text compression
- arxiv url: http://arxiv.org/abs/2201.05234v1
- Date: Thu, 13 Jan 2022 22:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 14:52:59.709077
- Title: Optimal alphabet for single text compression
- Title(参考訳): 単一テキスト圧縮のための最適アルファベット
- Authors: Armen E. Allahverdyan and Andranik Khachatryan
- Abstract要約: Huffman符号を用いたテキストの最適なノイズレス圧縮について検討する。
1つのテキストを圧縮する際には、コードブックを考慮に入れる必要がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A text can be viewed via different representations, i.e. as a sequence of
letters, n-grams of letters, syllables, words, and phrases. Here we study the
optimal noiseless compression of texts using the Huffman code, where the
alphabet of encoding coincides with one of those representations. We show that
it is necessary to account for the codebook when compressing a single text.
Hence, the total compression comprises of the optimally compressed text --
characterized by the entropy of the alphabet elements -- and the codebook which
is text-specific and therefore has to be included for noiseless
(de)compression. For texts of Project Gutenberg the best compression is
provided by syllables, i.e. the minimal meaning-expressing element of the
language. If only sufficiently short texts are retained, the optimal alphabet
is that of letters or 2-grams of letters depending on the retained length.
- Abstract(参考訳): テキストは、文字の列、文字のn-gram、音節、単語、句など、さまざまな表現を通して見ることができる。
ここではhuffman符号を用いてテキストの最適なノイズなし圧縮について検討し、符号化のアルファベットとそれらの表現の1つが一致することを示す。
一つのテキストを圧縮する際には,コードブックを考慮に入れる必要がある。
したがって、全圧縮は、アルファベット要素のエントロピーによって特徴付けられる最適な圧縮テキストと、テキスト固有のコードブックから成り、ノイズのない(de)圧縮に含めなければならない。
project gutenbergのテキストでは、最高の圧縮は音節、すなわち言語の最小の意味表現要素によって提供される。
十分な短いテキストしか残っていない場合、最適なアルファベットは、保持されている長さに応じて文字または2グラムの文字である。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Unicode Normalization and Grapheme Parsing of Indic Languages [2.974799610163104]
インド語の表記体系は、一意の水平単位として、複素グラフエム(complex graphemes)としても知られる正書法音節を持つ。
提案した正規化器は、以前使用したIndic normalizerよりも効率的で効果的なツールである。
本研究では,7言語スクリプトのパイプラインを報告し,さらに多くのスクリプトを統合するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-11T14:34:08Z) - Compressing Multisets with Large Alphabets [30.281628616298317]
マルチセットを最適に圧縮する現在の方法は、その計算時間はアルファベットサイズと線形にスケールするため、高次元のシンボルには適さない。
そこで本研究では,シンボルがI.d.と仮定して,これらのビットを復号する手法を提案する。
論文 参考訳(メタデータ) (2021-07-15T16:54:38Z) - With Measured Words: Simple Sentence Selection for Black-Box
Optimization of Sentence Compression Algorithms [15.13642936963968]
文圧縮は、与えられた文の短いが文法的なバージョンを生成するタスクである。
圧縮用ブラックボックス(B-BOC)を提案する。
i)単一文圧縮, (ii)文列圧縮の2つのシナリオを検討する。
論文 参考訳(メタデータ) (2021-01-25T14:00:56Z) - Learning Directly from Grammar Compressed Text [17.91878224879985]
本稿では, 圧縮を伴わない文法圧縮アルゴリズムを用いて圧縮したテキストデータに対して, ニューラルシーケンスモデルを適用する手法を提案する。
圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。
論文 参考訳(メタデータ) (2020-02-28T06:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。