論文の概要: Crossword: A Semantic Approach to Data Compression via Masking
- arxiv url: http://arxiv.org/abs/2304.01106v1
- Date: Mon, 3 Apr 2023 16:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:35:15.325447
- Title: Crossword: A Semantic Approach to Data Compression via Masking
- Title(参考訳): crossword: マスキングによるデータ圧縮への意味的アプローチ
- Authors: Mingxiao Li, Rui Jin, Liyao Xiang, Kaiming Shen, Shuguang Cui
- Abstract要約: 本研究は、英語のテキストに注意を払って、その意味的側面を活用して、圧縮効率をさらに高めている。
提案したマスキングベースの戦略は上記のゲームに類似している。
簡単に言えば、エンコーダは意味的損失に応じて各単語の意味的重要性を評価し、その後、マイナーな単語をマスキングし、デコーダは意味的文脈から意味的文脈でマスクされた単語を復元する。
- 参考スコア(独自算出の注目度): 38.107509264270924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The traditional methods for data compression are typically based on the
symbol-level statistics, with the information source modeled as a long sequence
of i.i.d. random variables or a stochastic process, thus establishing the
fundamental limit as entropy for lossless compression and as mutual information
for lossy compression. However, the source (including text, music, and speech)
in the real world is often statistically ill-defined because of its close
connection to human perception, and thus the model-driven approach can be quite
suboptimal. This study places careful emphasis on English text and exploits its
semantic aspect to enhance the compression efficiency further. The main idea
stems from the puzzle crossword, observing that the hidden words can still be
precisely reconstructed so long as some key letters are provided. The proposed
masking-based strategy resembles the above game. In a nutshell, the encoder
evaluates the semantic importance of each word according to the semantic loss
and then masks the minor ones, while the decoder aims to recover the masked
words from the semantic context by means of the Transformer. Our experiments
show that the proposed semantic approach can achieve much higher compression
efficiency than the traditional methods such as Huffman code and UTF-8 code,
while preserving the meaning in the target text to a great extent.
- Abstract(参考訳): データ圧縮の伝統的な手法は、典型的には記号レベルの統計に基づいており、情報ソースは確率変数や確率過程の長いシーケンスとしてモデル化され、損失のない圧縮のエントロピーや損失のない圧縮の相互情報として基本的な限界を確立する。
しかし、現実世界のソース(テキスト、音楽、音声を含む)は、人間の知覚と密接な関係があるため、統計的に定義できないことが多いため、モデル駆動のアプローチはかなり最適ではない。
本研究は英語テキストに注意を集中させ,その意味的側面を利用して圧縮効率をさらに高める。
主なアイデアはパズルのクロスワードに由来するもので、いくつかのキー文字が提供される限り、隠された単語を正確に再構築することができる。
提案手法は上記のゲームに類似している。
簡単に言えば、エンコーダは意味的損失に応じて各単語の意味的重要性を評価し、その後、マイナーな単語をマスキングし、デコーダは意味的文脈から意味的文脈でマスクされた単語を復元する。
実験により,提案手法はhuffman codeやutf-8 codeのような従来の手法に比べて圧縮効率が向上すると同時に,目的とするテキストの意味をかなり保持できることを示した。
関連論文リスト
- AlphaZip: Neural Network-Enhanced Lossless Text Compression [0.0]
本稿では,Large Language Model (LLM) を用いたロスレステキスト圧縮手法を提案する。
第一に、トランスフォーマーブロックのような高密度ニューラルネットワークアーキテクチャを使用した予測、第二に、予測ランクをAdaptive Huffman、LZ77、Gzipといった標準的な圧縮アルゴリズムで圧縮する。
論文 参考訳(メタデータ) (2024-09-23T14:21:06Z) - SMC++: Masked Learning of Unsupervised Video Semantic Compression [54.62883091552163]
ビデオセマンティクスを特に保持するMasked Video Modeling (MVM) を利用した圧縮フレームワークを提案する。
MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練している。
また、簡単なテクスチャの詳細やビットコストの浪費、セマンティックノイズなど、意味のない情報をエンコードすることもできる。
論文 参考訳(メタデータ) (2024-06-07T09:06:40Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Semantic Text Compression for Classification [17.259824817932294]
本研究では,テキストに含まれる意味をソースデコーダに伝達するテキストのセマンティック圧縮について検討する。
そこで,文の埋め込みと意味的歪み量を用いて意味を保存したテキストに対する意味量化と圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-09-19T17:50:57Z) - EntropyRank: Unsupervised Keyphrase Extraction via Side-Information
Optimization for Language Model-based Text Compression [62.261476176242724]
本稿では,事前学習言語モデル(LM)とシャノンの情報に基づいて,テキストからキーワードやキーワードを抽出する教師なし手法を提案する。
具体的には,LMの条件エントロピーが最も高い句を抽出する。
論文 参考訳(メタデータ) (2023-08-25T14:23:40Z) - Towards Semantic Communications: Deep Learning-Based Image Semantic
Coding [42.453963827153856]
我々は,よりセマンティクスや帯域幅に敏感な画像データに対するセマンティクス通信を考案した。
画素レベルを超えて画像を符号化する強化学習に基づく適応意味符号化(RL-ASC)手法を提案する。
実験の結果,提案したRL-ASCはノイズ耐性があり,視覚的に快適でセマンティックな一貫した画像の再構成が可能であった。
論文 参考訳(メタデータ) (2022-08-08T12:29:55Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z) - Learning Directly from Grammar Compressed Text [17.91878224879985]
本稿では, 圧縮を伴わない文法圧縮アルゴリズムを用いて圧縮したテキストデータに対して, ニューラルシーケンスモデルを適用する手法を提案する。
圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。
論文 参考訳(メタデータ) (2020-02-28T06:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。