論文の概要: Text Ranking and Classification using Data Compression
- arxiv url: http://arxiv.org/abs/2109.11577v1
- Date: Thu, 23 Sep 2021 18:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 06:21:50.087395
- Title: Text Ranking and Classification using Data Compression
- Title(参考訳): データ圧縮を用いたテキストランキングと分類
- Authors: Nitya Kasturi, Igor L. Markov
- Abstract要約: テキスト分類における言語に依存しないアプローチを提案する。
我々は、Zstandard圧縮機を使用し、これらのアイデアをいくつかの方法で強化し、結果のテクニックをZestと呼ぶ。
Zestは実運用環境における言語固有の多次元コンテンツ埋め込みと競合するが,公開データセット上の他のカウント手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.332560004325655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A well-known but rarely used approach to text categorization uses conditional
entropy estimates computed using data compression tools. Text affinity scores
derived from compressed sizes can be used for classification and ranking tasks,
but their success depends on the compression tools used. We use the Zstandard
compressor and strengthen these ideas in several ways, calling the resulting
language-agnostic technique Zest. In applications, this approach simplifies
configuration, avoiding careful feature extraction and large ML models. Our
ablation studies confirm the value of individual enhancements we introduce. We
show that Zest complements and can compete with language-specific
multidimensional content embeddings in production, but cannot outperform other
counting methods on public datasets.
- Abstract(参考訳): テキスト分類には、データ圧縮ツールを用いて計算された条件付きエントロピー推定を用いる。
圧縮サイズから得られたテキスト親和性スコアは、分類やランキングタスクに使用できるが、その成功は使用する圧縮ツールに依存する。
我々は、Zstandard圧縮機を使用し、これらのアイデアをいくつかの方法で強化し、結果の言語に依存しないテクニックをZestと呼ぶ。
アプリケーションでは、注意深い特徴抽出と大規模なMLモデルを避けることにより、構成を単純化する。
我々のアブレーション研究は、導入する個別の強化の価値を裏付けるものである。
zestは本番環境では言語固有の多次元コンテンツ埋め込みと競合できるが、公開データセット上の他のカウントメソッドを上回ることはできない。
関連論文リスト
- Mixed-Precision Embeddings for Large-Scale Recommendation Models [19.93156309493436]
混合精密埋め込み(Mixed-Precision Embeddings、MPE)は、新しい埋め込み圧縮法である。
MPEは予測精度を含まないまま、Criteoデータセット上で約200倍の圧縮を実現している。
論文 参考訳(メタデータ) (2024-09-30T14:04:27Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - A comprehensive empirical analysis on cross-domain semantic enrichment
for detection of depressive language [0.9749560288448115]
まず、大規模な汎用データセットから事前トレーニングされたリッチな単語の埋め込みから始め、シンプルな非線形マッピングメカニズムを通じて、はるかに小さく、より特定のドメインデータセットから学んだ埋め込みで拡張します。
単語の埋め込み表現は,高品質なデータセットに適用した場合に,他よりもはるかに優れたF1スコアが得られることを示す。
論文 参考訳(メタデータ) (2021-06-24T07:15:09Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Exploiting Class Labels to Boost Performance on Embedding-based Text
Classification [16.39344929765961]
異なる種類の埋め込みは、テキスト分類に使用される機能として、最近デファクトスタンダードになっている。
本稿では,単語の埋め込みを計算する際に,高頻度のカテゴリー排他語を重み付け可能な重み付け方式TF-CRを提案する。
論文 参考訳(メタデータ) (2020-06-03T08:53:40Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z) - Learning Directly from Grammar Compressed Text [17.91878224879985]
本稿では, 圧縮を伴わない文法圧縮アルゴリズムを用いて圧縮したテキストデータに対して, ニューラルシーケンスモデルを適用する手法を提案する。
圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。
論文 参考訳(メタデータ) (2020-02-28T06:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。