論文の概要: Embedding Compression for Text Classification Using Dictionary Screening
- arxiv url: http://arxiv.org/abs/2211.12715v1
- Date: Wed, 23 Nov 2022 05:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:06:59.284434
- Title: Embedding Compression for Text Classification Using Dictionary Screening
- Title(参考訳): 辞書スクリーニングを用いたテキスト分類のための埋め込み圧縮
- Authors: Jing Zhou, Xinru Jing, Muyu Liu, Hansheng Wang
- Abstract要約: テキスト分類タスクに圧縮を埋め込むための辞書スクリーニング手法を提案する。
提案手法は,パラメータ,平均テキストシーケンス,辞書サイズを大幅に削減する。
- 参考スコア(独自算出の注目度): 8.308609870092884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a dictionary screening method for embedding
compression in text classification tasks. The key purpose of this method is to
evaluate the importance of each keyword in the dictionary. To this end, we
first train a pre-specified recurrent neural network-based model using a full
dictionary. This leads to a benchmark model, which we then use to obtain the
predicted class probabilities for each sample in a dataset. Next, to evaluate
the impact of each keyword in affecting the predicted class probabilities, we
develop a novel method for assessing the importance of each keyword in a
dictionary. Consequently, each keyword can be screened, and only the most
important keywords are reserved. With these screened keywords, a new dictionary
with a considerably reduced size can be constructed. Accordingly, the original
text sequence can be substantially compressed. The proposed method leads to
significant reductions in terms of parameters, average text sequence, and
dictionary size. Meanwhile, the prediction power remains very competitive
compared to the benchmark model. Extensive numerical studies are presented to
demonstrate the empirical performance of the proposed method.
- Abstract(参考訳): 本稿では,テキスト分類タスクに圧縮を埋め込むための辞書スクリーニング手法を提案する。
本手法の主な目的は辞書における各キーワードの重要性を評価することである。
この目的のために、我々はまず、フル辞書を用いて、あらかじめ指定されたリカレントニューラルネットワークベースモデルを訓練する。
これはベンチマークモデルにつながり、データセット内の各サンプルの予測されたクラス確率を取得するために使用します。
次に,予測クラス確率に対する各キーワードの影響を評価するために,辞書における各キーワードの重要性を評価する新しい手法を開発した。
これにより、各キーワードを表示でき、最も重要なキーワードのみが予約される。
これらの画面付きキーワードにより、かなり小さいサイズの新しい辞書を構築することができる。
これにより、原文シーケンスを実質的に圧縮することができる。
提案手法は,パラメータ,平均テキストシーケンス,辞書サイズといった観点で有意な削減をもたらす。
一方、予測力はベンチマークモデルと比べて非常に競争力がある。
提案手法の実証性能を示すために, 大規模数値実験を行った。
関連論文リスト
- Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression [15.460141768587663]
データ圧縮と表現に基づくテキスト分類のための軽量な教師付き辞書学習フレームワークを提案する。
我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。
論文 参考訳(メタデータ) (2024-04-28T10:11:52Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Automatic Counterfactual Augmentation for Robust Text Classification
Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。
キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。
提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文 参考訳(メタデータ) (2023-07-01T02:26:34Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Weakly-supervised Text Classification Based on Keyword Graph [30.57722085686241]
GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。
フレームワークは反復的なプロセスであり、各イテレーションでまずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。
サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。
論文 参考訳(メタデータ) (2021-10-06T08:58:02Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - FRAKE: Fusional Real-time Automatic Keyword Extraction [1.332091725929965]
キーワード抽出は、テキストの主要な概念を最もよく表す単語やフレーズを識別する。
グラフ中心性特徴とテキスト特徴の2つのモデルを組み合わせたアプローチを採用している。
論文 参考訳(メタデータ) (2021-04-10T18:30:17Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。