論文の概要: Text-Preserving Lossy Text Compression: A Study of Strategic Deletion and LLM Reconstruction
- arxiv url: http://arxiv.org/abs/2605.29000v1
- Date: Wed, 27 May 2026 18:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.243655
- Title: Text-Preserving Lossy Text Compression: A Study of Strategic Deletion and LLM Reconstruction
- Title(参考訳): テキスト保存型ロッシーテキスト圧縮:戦略的削除とLLM再構成の検討
- Authors: Yuchun Zou, Junhong Tong, Jun Li,
- Abstract要約: エンコーダはテキストの一部を戦略的に削除する。
我々は、一様ステップ削除、ワード長誘導削除(WordLen)、ワード周波数誘導削除(WordFreq)、LP最適化削除(Opt)、GPT-2によるエントロピーに基づく削除、周波数と副次信号を組み合わせたハイブリッド手法などの削除戦略の進捗をベンチマークする。
- 参考スコア(独自算出の注目度): 3.008906408145323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional lossless text compression preserves every byte, but its gains on natural language are often modest in realistic operating regimes. We study \emph{lossy semantic text compression}, where the encoder strategically deletes parts of the text and a large language model (LLM) reconstructs the original content from the retained skeleton. We benchmark a progression of deletion strategies, including uniform step deletion, word-length-guided deletion (WordLen), word-frequency-guided deletion (WordFreq), LP-optimized deletion (Opt), entropy-based deletion using GPT-2 surprisal, and hybrid methods that combine frequency and surprisal signals. Evaluation on the BBC News dataset across retention rates $\r_{keep} \in [0.1,0.9]$ shows three main findings. First, WordFreq is a strong low-cost baseline: despite using only a static frequency lookup, it remains competitive with much more expensive semantic methods while being far faster at the encoder. Second, semantic and hybrid methods provide their clearest gains at mild-to-moderate compression, whereas word-frequency deletion is often more robust at the lowest retention rates. Third, QLoRA fine-tuning yields a strong local decoder that is competitive with Gemini 2.0 Flash and is often strongest in decoder-only comparisons. Additional English and Chinese experiments show that the overall framework transfers across domains, while the best deletion rule remains dataset-dependent.
- Abstract(参考訳): 従来の損失のないテキスト圧縮はすべてのバイトを保存するが、自然言語の利点は現実的な運用では控えめであることが多い。
エンコーダはテキストの一部を戦略的に削除し,大言語モデル(LLM)は保存された骨格からオリジナルコンテンツを再構成する。
我々は、一様ステップ削除、ワード長誘導削除(WordLen)、ワード周波数誘導削除(WordFreq)、LP最適化削除(Opt)、GPT-2によるエントロピーに基づく削除、周波数と副次信号を組み合わせたハイブリッド手法などの削除戦略の進捗をベンチマークする。
保持率$\r_{keep} \in [0.1,0.9]$におけるBBC Newsのデータセットの評価は3つの主な結果を示している。
まず、WordFreqは強力な低価格のベースラインである。静的な周波数検索だけを使っているが、エンコーダでははるかに高速でありながら、はるかに高価なセマンティックメソッドと競合する。
第二に、セマンティックな手法とハイブリッドな手法は、軽度からモデレートな圧縮において最も顕著な利得を提供するが、単語周波数の削除は、最低保持率でより堅牢であることが多い。
第3に、QLoRAの微調整は、Gemini 2.0 Flashと競合する強力なローカルデコーダをもたらす。
追加の英語と中国語の実験では、全体的なフレームワークはドメイン間で転送されるが、最高の削除ルールはデータセットに依存している。
関連論文リスト
- SemanticZip: A Pilot Framework for Lossy Text Compression with LLMs as Semantic Decompressors [0.0]
LLMがタスク関連の意味に拡張可能なコンパクトなコードにテキストを圧縮する。
通常の要約とは異なり、SemanticZipはバイト単位の再構築を必要としない。
この論文は試験的なフレームワークであり、ベンチマークの主張ではない。
論文 参考訳(メタデータ) (2026-05-23T12:14:04Z) - Lossless Prompt Compression via Dictionary-Encoding and In-Context Learning: Enabling Cost-Effective LLM Analysis of Repetitive Data [0.19780197369405136]
本稿では,大規模言語モデルを用いて,テキスト中のキーのエンコーディングを学習し,符号化された表現の分析を行うことができることを示す。
本稿では,複数長さの繰り返しパターンを識別する圧縮アルゴリズムを提案する。
このトレーニング不要のアプローチは、APIベースのLLMで動作し、基本的なデプロイメント制約に直接対処する。
論文 参考訳(メタデータ) (2026-03-19T21:05:53Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Memory-Efficient FastText: A Comprehensive Approach Using Double-Array Trie Structures and Mark-Compact Memory Management [0.0]
FastTextは、単語表現を学習するための基本的なアルゴリズムとして自らを確立した。
しかし、ハッシュベースのバケット機構は、大規模産業展開に重大な制限をもたらす。
本稿では,FastTextのメモリ管理を再定義するメモリ最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:11:22Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z) - Syntactically Look-Ahead Attention Network for Sentence Compression [36.6256383447417]
文圧縮は、冗長な単語を削除することで、長い文を短い文に圧縮するタスクである。
シーケンシャル・ツー・シーケンス(Seq2Seq)ベースのモデルでは、デコーダは一方向で単語の保持または削除を決定する。
本稿では,情報要約を生成できる新しいSeq2Seqモデル(SLAHAN)を提案する。
論文 参考訳(メタデータ) (2020-02-04T06:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。