論文の概要: Domain Adaptation of Transformer-Based Models using Unlabeled Data for
Relevance and Polarity Classification of German Customer Feedback
- arxiv url: http://arxiv.org/abs/2212.05764v1
- Date: Mon, 12 Dec 2022 08:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:08:10.391595
- Title: Domain Adaptation of Transformer-Based Models using Unlabeled Data for
Relevance and Polarity Classification of German Customer Feedback
- Title(参考訳): 未ラベルデータを用いた変圧器モデルによるドイツの顧客フィードバックの関連性・極性分類のドメイン適応
- Authors: Ahmad Idrissi-Yaghir, Henning Sch\"afer, Nadja Bauer, Christoph M.
Friedrich
- Abstract要約: この研究は、ドイツの顧客フィードバックデータセットを扱う際に、トランスフォーマーベースのモデルがいかに効率的であるかを調査する。
実験結果から,Transformerベースのモデルでは,fastTextベースラインに比べて大幅な改善が期待できることがわかった。
- 参考スコア(独自算出の注目度): 1.2999413717930817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding customer feedback is becoming a necessity for companies to
identify problems and improve their products and services. Text classification
and sentiment analysis can play a major role in analyzing this data by using a
variety of machine and deep learning approaches. In this work, different
transformer-based models are utilized to explore how efficient these models are
when working with a German customer feedback dataset. In addition, these
pre-trained models are further analyzed to determine if adapting them to a
specific domain using unlabeled data can yield better results than
off-the-shelf pre-trained models. To evaluate the models, two downstream tasks
from the GermEval 2017 are considered. The experimental results show that
transformer-based models can reach significant improvements compared to a
fastText baseline and outperform the published scores and previous models. For
the subtask Relevance Classification, the best models achieve a micro-averaged
$F1$-Score of 96.1 % on the first test set and 95.9 % on the second one, and a
score of 85.1 % and 85.3 % for the subtask Polarity Classification.
- Abstract(参考訳): 顧客からのフィードバックを理解することは、企業が問題を特定し、製品やサービスを改善するために必要なことです。
テキスト分類と感情分析は、さまざまな機械学習アプローチとディープラーニングアプローチを用いて、これらのデータを分析する上で大きな役割を果たす。
この作業では、ドイツの顧客フィードバックデータセットを扱う際に、さまざまなトランスフォーマーベースのモデルを使用して、これらのモデルがいかに効率的かを調べる。
さらに、これらの事前学習モデルは、未ラベルデータを用いて特定の領域に適応させることで、既学習モデルよりも優れた結果が得られるかどうかを更に分析する。
モデルを評価するために、GermEval 2017の2つの下流タスクが検討されている。
実験の結果,トランスフォーマティブベースモデルは,fasttextベースラインに比べて大幅に改善され,公開スコアや先行モデルよりも優れていた。
サブタスク関連分類において、最良モデルは、第1のテストセットで96.1 %、第2テストセットで95.9 %、サブタスク極性分類で85.1 %、85.3 %のマイクロ平均値である。
関連論文リスト
- Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - K-means Clustering Based Feature Consistency Alignment for Label-free
Model Evaluation [12.295565506212844]
本稿では,CVPR 2023における第1回DataCV Challenge of the Visual Understandingデータセットワークショップのソリューションについて述べる。
まず,K-means Clustering Based Feature Consistency Alignment (KCFCA) という手法を提案する。
第2に,分布の変化とモデル精度の関係を捉える動的回帰モデルを開発する。
第三に、外乱モデル因子を発見し、外乱モデルを排除するアルゴリズムを設計し、複数のオートエスバルモデルの強みを組み合わせる。
論文 参考訳(メタデータ) (2023-04-17T06:33:30Z) - Using calibrator to improve robustness in Machine Reading Comprehension [18.844528744164876]
ポストホックリランカとしてキャリブレータを用いてロバスト性を向上させる手法を提案する。
敵対的データセットを用いた実験結果から,我々のモデルは10%以上の性能向上を達成できることがわかった。
論文 参考訳(メタデータ) (2022-02-24T02:16:42Z) - Automatic Pharma News Categorization [0.0]
医薬情報科学に関連する23のニュースカテゴリからなるテキストデータセットを使用する。
分類タスクにおける複数変圧器モデルの微調整性能を比較した。
本稿では,最上位の個人予測器からなるアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2021-12-28T08:42:16Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability [0.0]
この研究は、最先端の言語モデルであるBERT、ELECTRAとその派生品であるRoBERTa、ALBERT、DistilBERTを比較した。
実験結果は、2013年の格付けタスクとフィナンシャル・フレーズバンクの感情検出タスクの69%、そして88.2%の精度で、新たな最先端の「評価タスク」を確立した。
論文 参考訳(メタデータ) (2020-09-09T04:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。