論文の概要: Gzip versus bag-of-words for text classification with KNN
- arxiv url: http://arxiv.org/abs/2307.15002v3
- Date: Tue, 1 Aug 2023 10:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 11:34:31.778490
- Title: Gzip versus bag-of-words for text classification with KNN
- Title(参考訳): KNNを用いたテキスト分類におけるGzip vs. bag-of-words
- Authors: Juri Opitz
- Abstract要約: 本稿では,より単純な手段も有効であり,圧縮は不要であることを示す。
実際、'bag-of-words'マッチングは類似またはより良い結果を得ることができ、より効率的である。
- 参考スコア(独自算出の注目度): 4.987581730476023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of compression distance in KNN-based text classification
('gzip') has recently garnered lots of attention. In this note we show that
simpler means can also be effective, and compression may not be needed. Indeed,
a 'bag-of-words' matching can achieve similar or better results, and is more
efficient.
- Abstract(参考訳): KNNベースのテキスト分類(gzip)における圧縮距離の有効性は近年注目されている。
本稿では,より単純な手段も有効であり,圧縮は不要であることを示す。
実際、'bag-of-words'マッチングは類似またはより良い結果を得ることができ、より効率的である。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - Embedding Compression for Text Classification Using Dictionary Screening [8.308609870092884]
テキスト分類タスクに圧縮を埋め込むための辞書スクリーニング手法を提案する。
提案手法は,パラメータ,平均テキストシーケンス,辞書サイズを大幅に削減する。
論文 参考訳(メタデータ) (2022-11-23T05:32:13Z) - Word Embeddings Are Capable of Capturing Rhythmic Similarity of Words [0.0]
Word2VecやGloVeのような単語埋め込みシステムは、NLPに対するディープラーニングアプローチでよく知られている。
本研究は,単語のリズム的類似性を捉える上での有用性について検討した。
その結果、これらの埋め込みは、他の単語と比較して、韻律語に割り当てられるベクターが互いに類似していることが判明した。
論文 参考訳(メタデータ) (2022-04-11T02:33:23Z) - Are We Really Making Much Progress in Text Classification? A Comparative
Review [2.579878570919875]
本研究では,単一ラベルと複数ラベルのテキスト分類のための手法をレビューし,比較する。
その結果、最近提案されたグラフベースおよび階層ベースの手法は、事前学習された言語モデルよりも優れていることが判明した。
論文 参考訳(メタデータ) (2022-04-08T09:28:20Z) - Weakly-supervised Text Classification Based on Keyword Graph [30.57722085686241]
GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。
フレームワークは反復的なプロセスであり、各イテレーションでまずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。
サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。
論文 参考訳(メタデータ) (2021-10-06T08:58:02Z) - Text Ranking and Classification using Data Compression [1.332560004325655]
テキスト分類における言語に依存しないアプローチを提案する。
我々は、Zstandard圧縮機を使用し、これらのアイデアをいくつかの方法で強化し、結果のテクニックをZestと呼ぶ。
Zestは実運用環境における言語固有の多次元コンテンツ埋め込みと競合するが,公開データセット上の他のカウント手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-23T18:13:17Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。