論文の概要: Multi-label classification of open-ended questions with BERT
- arxiv url: http://arxiv.org/abs/2304.02945v1
- Date: Thu, 6 Apr 2023 09:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:48:29.781079
- Title: Multi-label classification of open-ended questions with BERT
- Title(参考訳): BERTを用いたオープンエンド質問の多ラベル分類
- Authors: Matthias Schonlau, Julia Wei{\ss}, Jan Marquardt
- Abstract要約: 本稿では,社会科学調査におけるオープンエンド質問に対するテキスト回答の多ラベル分類に焦点を当てた。
変圧器をベースとしたドイツ語用アーキテクチャBERTの性能評価を行った。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-ended questions in surveys are valuable because they do not constrain
the respondent's answer, thereby avoiding biases. However, answers to
open-ended questions are text data which are harder to analyze. Traditionally,
answers were manually classified as specified in the coding manual. Most of the
effort to automate coding has gone into the easier problem of single label
prediction, where answers are classified into a single code. However, open-ends
that require multi-label classification, i.e., that are assigned multiple
codes, occur frequently. This paper focuses on multi-label classification of
text answers to open-ended survey questions in social science surveys. We
evaluate the performance of the transformer-based architecture BERT for the
German language in comparison to traditional multi-label algorithms (Binary
Relevance, Label Powerset, ECC) in a German social science survey, the GLES
Panel (N=17,584, 55 labels). We find that classification with BERT (forcing at
least one label) has the smallest 0/1 loss (13.1%) among methods considered
(18.9%-21.6%). As expected, it is much easier to correctly predict answer texts
that correspond to a single label (7.1% loss) than those that correspond to
multiple labels ($\sim$50% loss). Because BERT predicts zero labels for only
1.5% of the answers, forcing at least one label, while recommended, ultimately
does not lower the 0/1 loss by much. Our work has important implications for
social scientists: 1) We have shown multi-label classification with BERT works
in the German language for open-ends. 2) For mildly multi-label classification
tasks, the loss now appears small enough to allow for fully automatic
classification (as compared to semi-automatic approaches). 3) Multi-label
classification with BERT requires only a single model. The leading competitor,
ECC, iterates through individual single label predictions.
- Abstract(参考訳): 調査の未解決の質問は、回答者の回答を制限せず、バイアスを避けるために価値がある。
しかし、未解決の質問に対する回答は分析が難しいテキストデータである。
伝統的に、答えは手動でコーディングマニュアルに指定されている。
コーディングを自動化する取り組みのほとんどは、単一のラベル予測の容易な問題に陥り、回答は単一のコードに分類される。
しかし、複数のコードに割り当てられた複数ラベルの分類を必要とするオープンエンドは頻繁に発生する。
本稿では,社会科学調査におけるオープンエンド質問に対するテキスト回答の多ラベル分類に焦点を当てた。
我々は,ドイツの社会科学調査GLES Panel(N=17,584,55ラベル)において,従来のマルチラベルアルゴリズム(Binary Relevance, Label Powerset, ECC)と比較して,変圧器を用いたドイツ語用アーキテクチャBERTの性能を評価する。
BERT (少なくとも1つのラベルを強制する) による分類は、考慮された手法の中で最小の 0/1 の損失 (13.1%) を持つ。
予想通り、単一のラベル(7.1%の損失)に対応する回答テキストを複数のラベルに対応するテキスト(\sim$50%の損失)よりも正確に予測する方がずっと簡単である。
BERTは答えのわずか1.5%でゼロラベルを予測するため、少なくとも1つのラベルを推奨するが、最終的には0/1の損失を下げることはできない。
私たちの研究は社会科学者にとって重要な意味を持っています
1) オープンエンドのために, BERTを用いた多言語分類を行った。
2) 緩やかな多ラベル分類タスクでは, 完全な自動分類が可能になった(半自動的手法と比較して)。
3) bert によるマルチラベル分類は,単一のモデルのみを必要とする。
主要な競合であるeccは、個別の単一ラベル予測を繰り返す。
関連論文リスト
- Active Generalized Category Discovery [60.69060965936214]
GCD(Generalized Category Discovery)は、新しいクラスと古いクラスの未ラベルのサンプルをクラスタ化するための取り組みである。
我々は,能動的学習の精神を取り入れて,能動的一般化カテゴリー発見(AGCD)という新たな設定を提案する。
提案手法は, 汎用および微粒なデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-07T07:12:24Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Adopting the Multi-answer Questioning Task with an Auxiliary Metric for
Extreme Multi-label Text Classification Utilizing the Label Hierarchy [10.87653109398961]
本稿では,過度なマルチラベル分類のための複数問合せタスクを採用する。
本研究では,提案手法と評価基準を法域に適用する。
論文 参考訳(メタデータ) (2023-03-02T08:40:31Z) - Complementary to Multiple Labels: A Correlation-Aware Correction
Approach [65.59584909436259]
理論上, マルチクラスCLLにおける遷移行列が, 複数ラベルの場合どのように歪むかを示す。
候補ラベルから遷移行列を推定する2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-02-25T04:48:48Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。