論文の概要: Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression
- arxiv url: http://arxiv.org/abs/2405.01584v1
- Date: Sun, 28 Apr 2024 10:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 16:00:17.736786
- Title: Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression
- Title(参考訳): 情報圧縮を用いたテキスト分類のための軽量概念辞書学習
- Authors: Li Wan, Tansu Alpcan, Margreta Kuijper, Emanuele Viterbo,
- Abstract要約: データ圧縮と表現に基づくテキスト分類のための軽量な教師付き辞書学習フレームワークを提案する。
我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。
- 参考スコア(独自算出の注目度): 15.460141768587663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel, lightweight supervised dictionary learning framework for text classification based on data compression and representation. This two-phase algorithm initially employs the Lempel-Ziv-Welch (LZW) algorithm to construct a dictionary from text datasets, focusing on the conceptual significance of dictionary elements. Subsequently, dictionaries are refined considering label data, optimizing dictionary atoms to enhance discriminative power based on mutual information and class distribution. This process generates discriminative numerical representations, facilitating the training of simple classifiers such as SVMs and neural networks. We evaluate our algorithm's information-theoretic performance using information bottleneck principles and introduce the information plane area rank (IPAR) as a novel metric to quantify the information-theoretic performance. Tested on six benchmark text datasets, our algorithm competes closely with top models, especially in limited-vocabulary contexts, using significantly fewer parameters. \review{Our algorithm closely matches top-performing models, deviating by only ~2\% on limited-vocabulary datasets, using just 10\% of their parameters. However, it falls short on diverse-vocabulary datasets, likely due to the LZW algorithm's constraints with low-repetition data. This contrast highlights its efficiency and limitations across different dataset types.
- Abstract(参考訳): データ圧縮と表現に基づくテキスト分類のための,新しい軽量な教師付き辞書学習フレームワークを提案する。
この2相アルゴリズムは、当初、辞書要素の概念的重要性に焦点をあてて、テキストデータセットから辞書を構築するために、Lempel-Ziv-Welch (LZW)アルゴリズムを用いていた。
その後、ラベルデータを考慮して辞書を精査し、相互情報とクラス分布に基づく識別力を高めるために辞書原子を最適化する。
このプロセスは識別的数値表現を生成し、SVMやニューラルネットワークのような単純な分類器の訓練を容易にする。
我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。
このアルゴリズムは6つのベンチマークテキストデータセットでテストされ、特に限定語彙文脈において上位モデルと密接に競合し、パラメータは大幅に少ない。
\review{Our アルゴリズムは、限られた語彙データセット上では ~2\% しか逸脱せず、パラメータの 10\% のみを使用して、トップパフォーマンスモデルと密に一致している。
しかし、LZWアルゴリズムの低繰り返しデータに対する制約のため、多種多様な語彙データセットでは不足している。
このコントラストは、さまざまなデータセットタイプにわたる効率性と制限を強調している。
関連論文リスト
- Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - A Novel Ehanced Move Recognition Algorithm Based on Pre-trained Models
with Positional Embeddings [6.688643243555054]
要約の認識は、コンテンツを効果的に特定し、記事を明確にするために重要である。
本稿では,中国科学・技術論文の非構造的抽象化に対する注意機構を備えた,改良された事前学習モデルとゲートネットワークを備えた新しい動き認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-14T03:20:28Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Decentralized Complete Dictionary Learning via $\ell^{4}$-Norm
Maximization [1.2995632804090198]
本稿では,$ell4$-normに基づく分散完全辞書学習アルゴリズムを提案する。
既存の分散辞書学習アルゴリズムと比較して、新しいアルゴリズムは多くのシナリオにおいて、解法毎の計算複雑性、通信コスト、収束率の点で大きな利点がある。
論文 参考訳(メタデータ) (2022-11-07T15:36:08Z) - Word Embeddings and Validity Indexes in Fuzzy Clustering [5.063728016437489]
単語の様々なベクトル表現、すなわち単語埋め込みのファジィに基づく解析。
我々は2つのファジィクラスタリングアルゴリズムをカウントベースの単語埋め込みに使用し、異なる手法と次元を持つ。
本研究では,様々なクラスタリング妥当性指標を用いた実験結果を評価し,異なるアルゴリズム変動と異なる埋め込み精度を比較した。
論文 参考訳(メタデータ) (2022-04-26T18:08:19Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Discriminative Dictionary Learning based on Statistical Methods [0.0]
信号やデータのスパース表現(SR)は厳密な数学的誤り境界と証明を持つ十分に確立された理論を持つ。
最小損失の信号群を表現した辞書を辞書学習(DL)という。
MODとK-SVDは、画像「デノイング」や「インペインティング」といった画像処理における再構成ベースの応用に成功している。
論文 参考訳(メタデータ) (2021-11-17T10:45:10Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。