論文の概要: Prompt Tuned Embedding Classification for Multi-Label Industry Sector
Allocation
- arxiv url: http://arxiv.org/abs/2309.12075v2
- Date: Mon, 23 Oct 2023 12:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 07:18:57.184962
- Title: Prompt Tuned Embedding Classification for Multi-Label Industry Sector
Allocation
- Title(参考訳): マルチラベル産業セクター配置のためのプロンプトチューニング埋め込み分類
- Authors: Valentin Leonhard Buchner, Lele Cao, Jan-Christoph Kalo, Vilhelm von
Ehrenheim
- Abstract要約: 本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
- 参考スコア(独自算出の注目度): 2.2117527672874897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt Tuning is emerging as a scalable and cost-effective method to
fine-tune Pretrained Language Models (PLMs), which are often referred to as
Large Language Models (LLMs). This study benchmarks the performance and
computational efficiency of Prompt Tuning and baselines for multi-label text
classification. This is applied to the challenging task of classifying
companies into an investment firm's proprietary industry taxonomy, supporting
their thematic investment strategy. Text-to-text classification is frequently
reported to outperform task-specific classification heads, but has several
limitations when applied to a multi-label classification problem where each
label consists of multiple tokens: (a) Generated labels may not match any label
in the label taxonomy; (b) The fine-tuning process lacks permutation invariance
and is sensitive to the order of the provided labels; (c) The model provides
binary decisions rather than appropriate confidence scores. Limitation (a) is
addressed by applying constrained decoding using Trie Search, which slightly
improves classification performance. All limitations (a), (b), and (c) are
addressed by replacing the PLM's language head with a classification head,
which is referred to as Prompt Tuned Embedding Classification (PTEC). This
improves performance significantly, while also reducing computational costs
during inference. In our industrial application, the training data is skewed
towards well-known companies. We confirm that the model's performance is
consistent across both well-known and less-known companies. Our overall results
indicate the continuing need to adapt state-of-the-art methods to
domain-specific tasks, even in the era of PLMs with strong generalization
abilities. We release our codebase and a benchmarking dataset at
https://github.com/EQTPartners/PTEC.
- Abstract(参考訳): Prompt Tuningは、しばしばLLM(Large Language Models)と呼ばれるPLM(Pretrained Language Models)を微調整するためのスケーラブルで費用効率のよい方法として登場した。
本研究は,マルチラベルテキスト分類のためのプロンプトチューニングとベースラインの性能と計算効率のベンチマークを行う。
これは、企業を投資会社の独自産業分類に分類し、そのテーマ的投資戦略を支援するという課題に適用される。
テキストからテキストへの分類はタスク固有の分類ヘッドよりも多く報告されるが、各ラベルが複数のトークンで構成されるマルチラベル分類問題に適用する場合、いくつかの制限がある。
a) 生成されたラベルは,ラベル分類上のラベルと一致しない。
b) 微調整プロセスは,変分不変性を欠き,提供ラベルの順序に敏感である。
(c) モデルは適切な信頼スコアではなく、二項決定を提供する。
制限
(a) 分類性能をわずかに向上させるTrie Searchを用いた制約付きデコーディングを適用することで対処する。
すべての制限
(a)
(b)及び
c) は PLM の言語ヘッドを Prompt Tuned Embedding Classification (PTEC) と呼ばれる分類ヘッドに置き換えることによって対処される。
これにより性能が大幅に向上し、推論時の計算コストも低減される。
当社の産業応用では、トレーニングデータはよく知られた企業に偏っている。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
以上の結果から,高度な一般化能力を持つPLMの時代にも,最先端の手法をドメイン固有タスクに適用する必要性が続いていることが示唆された。
コードベースとベンチマークデータセットをhttps://github.com/EQTPartners/PTECでリリースしています。
関連論文リスト
- RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules [30.239044569301534]
弱教師付きテキスト分類(WSTC)は、大量のテキストを分類できるため、注目を集めている。
本稿では,ルールマイニングモジュールとルール強化擬似ラベル生成モジュールからなるWSTCタスクに対して,ルールプロンプトというPLMベースのアプローチを提案する。
提案手法は解釈可能なカテゴリー規則を導出し,難解なカテゴリを曖昧にすることの利点を証明した。
論文 参考訳(メタデータ) (2024-03-05T12:50:36Z) - SemiReward: A General Reward Model for Semi-supervised Learning [58.47299780978101]
半教師付き学習(SSL)は、擬似ラベリングによる自己学習フレームワークの様々な改善により、大きな進歩をみせた。
主な課題は、高品質な擬似ラベルを確認バイアスと区別する方法である。
本稿では、報酬スコアを予測して高品質な擬似ラベルを評価・フィルタリングするセミ教師付きリワードフレームワーク(SemiReward)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:56:41Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - AutoWS: Automated Weak Supervision Framework for Text Classification [1.748907524043535]
本稿では、ドメインエキスパートへの依存を減らしつつ、弱い監督プロセスの効率を高めるための新しい枠組みを提案する。
本手法では,ラベルクラス毎にラベル付きサンプルの小さなセットが必要であり,多数のラベル付きデータにノイズ付きラベルを割り当てるラベル付き関数のセットを自動生成する。
論文 参考訳(メタデータ) (2023-02-07T07:12:05Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。