Fugu-MT 論文翻訳(概要): Exploiting Class Labels to Boost Performance on Embedding-based Text Classification

論文の概要: Exploiting Class Labels to Boost Performance on Embedding-based Text Classification

arxiv url: http://arxiv.org/abs/2006.02104v2
Date: Tue, 1 Sep 2020 19:39:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 18:22:23.454977
Title: Exploiting Class Labels to Boost Performance on Embedding-based Text Classification
Title（参考訳）: 埋め込み型テキスト分類の性能向上のためのクラスラベルの利用
Authors: Arkaitz Zubiaga
Abstract要約: 異なる種類の埋め込みは、テキスト分類に使用される機能として、最近デファクトスタンダードになっている。本稿では,単語の埋め込みを計算する際に,高頻度のカテゴリー排他語を重み付け可能な重み付け方式TF-CRを提案する。
参考スコア（独自算出の注目度）: 16.39344929765961
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text classification is one of the most frequent tasks for processing textual data, facilitating among others research from large-scale datasets. Embeddings of different kinds have recently become the de facto standard as features used for text classification. These embeddings have the capacity to capture meanings of words inferred from occurrences in large external collections. While they are built out of external collections, they are unaware of the distributional characteristics of words in the classification dataset at hand, including most importantly the distribution of words across classes in training data. To make the most of these embeddings as features and to boost the performance of classifiers using them, we introduce a weighting scheme, Term Frequency-Category Ratio (TF-CR), which can weight high-frequency, category-exclusive words higher when computing word embeddings. Our experiments on eight datasets show the effectiveness of TF-CR, leading to improved performance scores over the well-known weighting schemes TF-IDF and KLD as well as over the absence of a weighting scheme in most cases.
Abstract（参考訳）: テキスト分類はテキストデータを処理するための最も頻繁なタスクの1つであり、大規模なデータセットからの研究を促進する。異なる種類の埋め込みは最近、テキスト分類に使用される機能としてデファクトスタンダードになっている。これらの埋め込みは、大規模な外部コレクションで発生した単語の意味を捉える能力を持つ。これらは外部コレクションから構築されているが、学習データ中のクラス間での単語の分布を含む、手前の分類データセットにおける単語の分布特性を意識していない。これらの埋め込みを特徴として活用し,それらを用いた分類器の性能を高めるために,単語埋め込みを計算する際に,高頻度,カテゴリー排他的な単語を重み付け可能な重み付けスキームtf-crを導入する。 8つのデータセットを用いた実験により,tf-crの有効性が示され,よく知られた重み付けスキームであるtf-idfとkldよりも性能スコアが向上した。

関連論文リスト

Low-Resource Fast Text Classification Based on Intra-Class and Inter-Class Distance Calculation [1.0291559330120414]
LFTCと呼ばれる低リソースかつ高速なテキスト分類モデルを提案する。当社のアプローチは,各クラスに対して,クラス内データ内の正規性情報を完全にマイニングするコンプレッサーリストを構築することから始まります。 LFTCを9つの公開ベンチマークデータセットで評価した結果,性能と処理時間に大きな改善が見られた。
論文参考訳（メタデータ） (2024-12-13T07:22:13Z)
XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。単語の正当性予測を補助タスクとして組み込む。 XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文参考訳（メタデータ） (2023-10-31T23:24:22Z)
Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2023-09-10T10:57:41Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)
FastClass: A Time-Efficient Approach to Weakly-Supervised Text Classification [14.918600168973564]
本稿では,効率的な弱教師付き分類手法であるFastClassを提案する。センシティブテキスト表現を使用して、外部ラベルなしコーパスからクラス関連文書を検索する。実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも優れており,訓練速度のオーダー・オブ・マグニチュードが高速であることが確認された。
論文参考訳（メタデータ） (2022-12-11T13:43:22Z)
Selective Text Augmentation with Word Roles for Low-Resource Text Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文参考訳（メタデータ） (2022-09-04T08:13:11Z)
Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。 LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文参考訳（メタデータ） (2022-04-14T17:33:34Z)
On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文参考訳（メタデータ） (2022-02-17T22:40:19Z)
Generalized Funnelling: Ensemble Learning and Heterogeneous Document Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。 Emph Generalized Funnelling (gFun) はFunの一般化である。 gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2021-09-17T23:33:04Z)
TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。 16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文参考訳（メタデータ） (2020-12-11T19:23:28Z)
Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文参考訳（メタデータ） (2020-05-18T06:04:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。