論文の概要: Optimal alphabet for single text compression
- arxiv url: http://arxiv.org/abs/2201.05234v1
- Date: Thu, 13 Jan 2022 22:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 14:52:59.709077
- Title: Optimal alphabet for single text compression
- Title(参考訳): 単一テキスト圧縮のための最適アルファベット
- Authors: Armen E. Allahverdyan and Andranik Khachatryan
- Abstract要約: Huffman符号を用いたテキストの最適なノイズレス圧縮について検討する。
1つのテキストを圧縮する際には、コードブックを考慮に入れる必要がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A text can be viewed via different representations, i.e. as a sequence of
letters, n-grams of letters, syllables, words, and phrases. Here we study the
optimal noiseless compression of texts using the Huffman code, where the
alphabet of encoding coincides with one of those representations. We show that
it is necessary to account for the codebook when compressing a single text.
Hence, the total compression comprises of the optimally compressed text --
characterized by the entropy of the alphabet elements -- and the codebook which
is text-specific and therefore has to be included for noiseless
(de)compression. For texts of Project Gutenberg the best compression is
provided by syllables, i.e. the minimal meaning-expressing element of the
language. If only sufficiently short texts are retained, the optimal alphabet
is that of letters or 2-grams of letters depending on the retained length.
- Abstract(参考訳): テキストは、文字の列、文字のn-gram、音節、単語、句など、さまざまな表現を通して見ることができる。
ここではhuffman符号を用いてテキストの最適なノイズなし圧縮について検討し、符号化のアルファベットとそれらの表現の1つが一致することを示す。
一つのテキストを圧縮する際には,コードブックを考慮に入れる必要がある。
したがって、全圧縮は、アルファベット要素のエントロピーによって特徴付けられる最適な圧縮テキストと、テキスト固有のコードブックから成り、ノイズのない(de)圧縮に含めなければならない。
project gutenbergのテキストでは、最高の圧縮は音節、すなわち言語の最小の意味表現要素によって提供される。
十分な短いテキストしか残っていない場合、最適なアルファベットは、保持されている長さに応じて文字または2グラムの文字である。
関連論文リスト
- Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Matching Latent Encoding for Audio-Text based Keyword Spotting [9.599402723927733]
フレキシブルキーワードスポッティング(KWS)のための音声テキストに基づくエンドツーエンドモデルアーキテクチャを提案する。
我々のアーキテクチャは、動的プログラミングに基づく新しいアルゴリズムである動的シーケンス分割(DSP)を用いて、音声シーケンスを単語ベースのテキストシーケンスと同じ長さに最適に分割する。
実験の結果,DSPは他のパーティショニング方式よりも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-08T14:44:23Z) - LLMZip: Lossless Text Compression using Large Language Models [11.192362715503135]
大規模言語モデルLLaMA-7Bを用いて,英語のエントロピー上界の新たな推定値を提案する。
自然副産物(英: natural byproduct)は、英語のテキストを無意味に圧縮するアルゴリズムである。
限られた実験から得られた予備結果は,本手法が最先端のテキスト圧縮方式より優れていることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T22:42:00Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z) - Compressing Multisets with Large Alphabets [30.281628616298317]
マルチセットを最適に圧縮する現在の方法は、その計算時間はアルファベットサイズと線形にスケールするため、高次元のシンボルには適さない。
そこで本研究では,シンボルがI.d.と仮定して,これらのビットを復号する手法を提案する。
論文 参考訳(メタデータ) (2021-07-15T16:54:38Z) - A Condense-then-Select Strategy for Text Summarization [53.10242552203694]
テキスト要約のための新しいcondense-then-selectフレームワークを提案する。
我々のフレームワークは、文レベルの圧縮の効率を高く保ちながら、有能な情報の損失を避けるのに役立ちます。
論文 参考訳(メタデータ) (2021-06-19T10:33:10Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z) - With Measured Words: Simple Sentence Selection for Black-Box
Optimization of Sentence Compression Algorithms [15.13642936963968]
文圧縮は、与えられた文の短いが文法的なバージョンを生成するタスクである。
圧縮用ブラックボックス(B-BOC)を提案する。
i)単一文圧縮, (ii)文列圧縮の2つのシナリオを検討する。
論文 参考訳(メタデータ) (2021-01-25T14:00:56Z) - Learning Directly from Grammar Compressed Text [17.91878224879985]
本稿では, 圧縮を伴わない文法圧縮アルゴリズムを用いて圧縮したテキストデータに対して, ニューラルシーケンスモデルを適用する手法を提案する。
圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。
論文 参考訳(メタデータ) (2020-02-28T06:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。