論文の概要: Data Science Kitchen at GermEval 2021: A Fine Selection of Hand-Picked Features, Delivered Fresh from the Oven
- arxiv url: http://arxiv.org/abs/2109.02383v2
- Date: Sun, 18 Aug 2024 20:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 06:51:56.063978
- Title: Data Science Kitchen at GermEval 2021: A Fine Selection of Hand-Picked Features, Delivered Fresh from the Oven
- Title(参考訳): GermEval 2021におけるデータサイエンスキッチン: オーブンから新鮮を届ける手描き特徴の選択
- Authors: Niclas Hildebrandt, Benedikt Boenninghoff, Dennis Orth, Christopher Schymura,
- Abstract要約: 本稿では,GermEval 2021におけるデータサイエンスキッチン(Data Science Kitchen)の,有毒なコメント,エンゲージメント,事実を定めているコメントの識別に対する貢献について述べる。
このタスクは、モデレーターやコミュニティマネージャがファクトチェックに優先すべきコメントを識別する追加のサブタスクを含め、攻撃的な言語の識別を拡張することを目的としている。
我々は、事前訓練されたディープニューラルネットワークから派生したセマンティックおよび書き込みスタイルの埋め込みと追加の数値的特徴を組み合わせる。
- 参考スコア(独自算出の注目度): 1.5717513521418398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the contribution of the Data Science Kitchen at GermEval 2021 shared task on the identification of toxic, engaging, and fact-claiming comments. The task aims at extending the identification of offensive language, by including additional subtasks that identify comments which should be prioritized for fact-checking by moderators and community managers. Our contribution focuses on a feature-engineering approach with a conventional classification backend. We combine semantic and writing style embeddings derived from pre-trained deep neural networks with additional numerical features, specifically designed for this task. Classifier ensembles are used to derive predictions for each subtask via a majority voting scheme. Our best submission achieved macro-averaged F1-scores of 66.8\%,\,69.9\% and 72.5\% for the identification of toxic, engaging, and fact-claiming comments.
- Abstract(参考訳): 本稿では,GermEval 2021におけるデータサイエンスキッチン(Data Science Kitchen)の,有毒なコメント,エンゲージメント,事実を主張するコメントの識別に関する共有タスクの貢献について述べる。
このタスクは、モデレーターやコミュニティマネージャがファクトチェックに優先すべきコメントを識別する追加のサブタスクを含め、攻撃的な言語の識別を拡張することを目的としている。
私たちのコントリビューションは,従来の分類バックエンドを備えた機能エンジニアリングアプローチに重点を置いています。
我々は、事前訓練されたディープニューラルネットワークから派生したセマンティックと書き込みスタイルの埋め込みと、このタスクのために特別に設計された追加の数値的特徴を組み合わせる。
分類アンサンブルは、多数決方式によって各サブタスクの予測を導出するために使用される。
我々のベストセプションは、毒性、エンゲージメント、事実を主張するコメントの識別において、66.8\%、\,69.9\%、および72.5\%のマクロ平均F1スコアを達成した。
関連論文リスト
- Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - Association Graph Learning for Multi-Task Classification with Category
Shifts [68.58829338426712]
関連する分類タスクが同じラベル空間を共有し、同時に学習されるマルチタスク分類に焦点を当てる。
我々は、不足クラスのためのタスク間で知識を伝達する関連グラフを学習する。
我々の手法は代表的基準よりも一貫して性能が良い。
論文 参考訳(メタデータ) (2022-10-10T12:37:41Z) - BEIKE NLP at SemEval-2022 Task 4: Prompt-Based Paragraph Classification
for Patronizing and Condescending Language Detection [13.944149742291788]
PCL検出タスクは、メディアの脆弱なコミュニティを保護し、あるいは支持している言語を特定することを目的としている。
本稿では,段落分類における素早い学習の力を活用した解法について紹介する。
論文 参考訳(メタデータ) (2022-08-02T08:38:47Z) - DisCoDisCo at the DISRPT2021 Shared Task: A System for Discourse
Segmentation, Classification, and Connective Detection [4.371388370559826]
我々のシステムはDisCoDisCoと呼ばれ、コンテキスト化された単語の埋め込みを手作りの機能で強化する。
関係分類の結果は、新しい2021ベンチマークで強い性能を示している。
複数の事前学習されたトランスフォーマーベース言語モデルの部分評価は、Next Sentence Predictionタスクで事前学習されたモデルが関係分類に最適であることを示している。
論文 参考訳(メタデータ) (2021-09-20T18:11:05Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - CIM: Class-Irrelevant Mapping for Few-Shot Classification [58.02773394658623]
FSC(Few-shot Classification)は近年のホットな問題の一つである。
事前訓練されたFEMを評価する方法は、FSCコミュニティにおいて最も重要な焦点である。
CIM(Class-Irrelevant Mapping)と呼ばれるシンプルなフレキシブルな手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T03:26:24Z) - A survey of joint intent detection and slot-filling models in natural
language understanding [0.0]
この記事は、自然言語理解、特に統合意図分類とスロットフィリングにおける過去の研究のまとめである。
本稿では,傾向,アプローチ,課題,データセット,意図分類における評価指標,スロット充填について述べる。
論文 参考訳(メタデータ) (2021-01-20T12:15:11Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。