論文の概要: Learning Directly from Grammar Compressed Text
- arxiv url: http://arxiv.org/abs/2002.12570v1
- Date: Fri, 28 Feb 2020 06:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:19:57.542079
- Title: Learning Directly from Grammar Compressed Text
- Title(参考訳): 文法圧縮テキストから直接学習する
- Authors: Yoichi Sasaki, Kosuke Akimoto, Takanori Maehara
- Abstract要約: 本稿では, 圧縮を伴わない文法圧縮アルゴリズムを用いて圧縮したテキストデータに対して, ニューラルシーケンスモデルを適用する手法を提案する。
圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。
- 参考スコア(独自算出の注目度): 17.91878224879985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks using numerous text data have been successfully applied to a
variety of tasks. While massive text data is usually compressed using
techniques such as grammar compression, almost all of the previous machine
learning methods assume already decompressed sequence data as their input. In
this paper, we propose a method to directly apply neural sequence models to
text data compressed with grammar compression algorithms without decompression.
To encode the unique symbols that appear in compression rules, we introduce
composer modules to incrementally encode the symbols into vector
representations. Through experiments on real datasets, we empirically showed
that the proposal model can achieve both memory and computational efficiency
while maintaining moderate performance.
- Abstract(参考訳): 多数のテキストデータを用いたニューラルネットワークは、様々なタスクにうまく適用されている。
大量のテキストデータは文法圧縮などの手法で圧縮されることが多いが、従来の機械学習手法のほとんどは、すでに圧縮されたシーケンスデータを入力として想定している。
本稿では, 圧縮を伴わない文法圧縮アルゴリズムで圧縮されたテキストデータに対して, ニューラルシーケンスモデルを直接適用する手法を提案する。
圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。
実データセットを用いた実験により,提案モデルが適度な性能を維持しつつ,メモリと計算効率を両立できることを示した。
関連論文リスト
- AlphaZip: Neural Network-Enhanced Lossless Text Compression [0.0]
本稿では,Large Language Model (LLM) を用いたロスレステキスト圧縮手法を提案する。
第一に、トランスフォーマーブロックのような高密度ニューラルネットワークアーキテクチャを使用した予測、第二に、予測ランクをAdaptive Huffman、LZ77、Gzipといった標準的な圧縮アルゴリズムで圧縮する。
論文 参考訳(メタデータ) (2024-09-23T14:21:06Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Crossword: A Semantic Approach to Data Compression via Masking [38.107509264270924]
本研究は、英語のテキストに注意を払って、その意味的側面を活用して、圧縮効率をさらに高めている。
提案したマスキングベースの戦略は上記のゲームに類似している。
簡単に言えば、エンコーダは意味的損失に応じて各単語の意味的重要性を評価し、その後、マイナーな単語をマスキングし、デコーダは意味的文脈から意味的文脈でマスクされた単語を復元する。
論文 参考訳(メタデータ) (2023-04-03T16:04:06Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Text Ranking and Classification using Data Compression [1.332560004325655]
テキスト分類における言語に依存しないアプローチを提案する。
我々は、Zstandard圧縮機を使用し、これらのアイデアをいくつかの方法で強化し、結果のテクニックをZestと呼ぶ。
Zestは実運用環境における言語固有の多次元コンテンツ埋め込みと競合するが,公開データセット上の他のカウント手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-23T18:13:17Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。