論文の概要: Text Ranking and Classification using Data Compression
- arxiv url: http://arxiv.org/abs/2109.11577v1
- Date: Thu, 23 Sep 2021 18:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 06:21:50.087395
- Title: Text Ranking and Classification using Data Compression
- Title(参考訳): データ圧縮を用いたテキストランキングと分類
- Authors: Nitya Kasturi, Igor L. Markov
- Abstract要約: テキスト分類における言語に依存しないアプローチを提案する。
我々は、Zstandard圧縮機を使用し、これらのアイデアをいくつかの方法で強化し、結果のテクニックをZestと呼ぶ。
Zestは実運用環境における言語固有の多次元コンテンツ埋め込みと競合するが,公開データセット上の他のカウント手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.332560004325655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A well-known but rarely used approach to text categorization uses conditional
entropy estimates computed using data compression tools. Text affinity scores
derived from compressed sizes can be used for classification and ranking tasks,
but their success depends on the compression tools used. We use the Zstandard
compressor and strengthen these ideas in several ways, calling the resulting
language-agnostic technique Zest. In applications, this approach simplifies
configuration, avoiding careful feature extraction and large ML models. Our
ablation studies confirm the value of individual enhancements we introduce. We
show that Zest complements and can compete with language-specific
multidimensional content embeddings in production, but cannot outperform other
counting methods on public datasets.
- Abstract(参考訳): テキスト分類には、データ圧縮ツールを用いて計算された条件付きエントロピー推定を用いる。
圧縮サイズから得られたテキスト親和性スコアは、分類やランキングタスクに使用できるが、その成功は使用する圧縮ツールに依存する。
我々は、Zstandard圧縮機を使用し、これらのアイデアをいくつかの方法で強化し、結果の言語に依存しないテクニックをZestと呼ぶ。
アプリケーションでは、注意深い特徴抽出と大規模なMLモデルを避けることにより、構成を単純化する。
我々のアブレーション研究は、導入する個別の強化の価値を裏付けるものである。
zestは本番環境では言語固有の多次元コンテンツ埋め込みと競合できるが、公開データセット上の他のカウントメソッドを上回ることはできない。
関連論文リスト
- EntropyRank: Unsupervised Keyphrase Extraction via Side-Information
Optimization for Language Model-based Text Compression [62.261476176242724]
本稿では,事前学習言語モデル(LM)とシャノンの情報に基づいて,テキストからキーワードやキーワードを抽出する教師なし手法を提案する。
具体的には,LMの条件エントロピーが最も高い句を抽出する。
論文 参考訳(メタデータ) (2023-08-25T14:23:40Z) - Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - Crossword: A Semantic Approach to Data Compression via Masking [38.107509264270924]
本研究は、英語のテキストに注意を払って、その意味的側面を活用して、圧縮効率をさらに高めている。
提案したマスキングベースの戦略は上記のゲームに類似している。
簡単に言えば、エンコーダは意味的損失に応じて各単語の意味的重要性を評価し、その後、マイナーな単語をマスキングし、デコーダは意味的文脈から意味的文脈でマスクされた単語を復元する。
論文 参考訳(メタデータ) (2023-04-03T16:04:06Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - A comprehensive empirical analysis on cross-domain semantic enrichment
for detection of depressive language [0.9749560288448115]
まず、大規模な汎用データセットから事前トレーニングされたリッチな単語の埋め込みから始め、シンプルな非線形マッピングメカニズムを通じて、はるかに小さく、より特定のドメインデータセットから学んだ埋め込みで拡張します。
単語の埋め込み表現は,高品質なデータセットに適用した場合に,他よりもはるかに優れたF1スコアが得られることを示す。
論文 参考訳(メタデータ) (2021-06-24T07:15:09Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Sentence Compression as Deletion with Contextual Embeddings [3.3263205689999444]
我々は、入力のコンテキストをキャプチャするモデルを可能にするコンテキスト埋め込みを利用する。
Googleデータセットのベンチマークによる実験結果から,文脈埋め込みを利用することで,このモデルが新たな最先端のFスコアを実現することが示された。
論文 参考訳(メタデータ) (2020-06-05T02:40:46Z) - Exploiting Class Labels to Boost Performance on Embedding-based Text
Classification [16.39344929765961]
異なる種類の埋め込みは、テキスト分類に使用される機能として、最近デファクトスタンダードになっている。
本稿では,単語の埋め込みを計算する際に,高頻度のカテゴリー排他語を重み付け可能な重み付け方式TF-CRを提案する。
論文 参考訳(メタデータ) (2020-06-03T08:53:40Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z) - Learning Directly from Grammar Compressed Text [17.91878224879985]
本稿では, 圧縮を伴わない文法圧縮アルゴリズムを用いて圧縮したテキストデータに対して, ニューラルシーケンスモデルを適用する手法を提案する。
圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。
論文 参考訳(メタデータ) (2020-02-28T06:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。