論文の概要: Data Science Kitchen at GermEval 2021: A Fine Selection of Hand-Picked
Features, Delivered Fresh from the Oven
- arxiv url: http://arxiv.org/abs/2109.02383v1
- Date: Mon, 6 Sep 2021 12:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 23:08:02.977706
- Title: Data Science Kitchen at GermEval 2021: A Fine Selection of Hand-Picked
Features, Delivered Fresh from the Oven
- Title(参考訳): germeval 2021のデータサイエンスキッチン: オーブンから生鮮に届けられた手選りの良い特徴の選び方
- Authors: Niclas Hildebrandt and Benedikt Boenninghoff and Dennis Orth and
Christopher Schymura
- Abstract要約: 本稿では,GermEval 2021におけるデータサイエンスキッチンが有毒なコメント,エンゲージメント,事実を定めているコメントの識別に寄与していることを示す。
我々は、事前訓練されたディープニューラルネットワークから派生したセマンティックと書き込みスタイルの埋め込みと、このタスクのために特別に設計された追加の数値的特徴を組み合わせる。
我々のベストセプションは、毒性、エンゲージメント、事実を主張するコメントの識別に対して66.8%、69.9%、72.5%のマクロ平均F1スコアを達成した。
- 参考スコア(独自算出の注目度): 4.435835732946953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the contribution of the Data Science Kitchen at GermEval
2021 shared task on the identification of toxic, engaging, and fact-claiming
comments. The task aims at extending the identification of offensive language,
by including additional subtasks that identify comments which should be
prioritized for fact-checking by moderators and community managers. Our
contribution focuses on a feature-engineering approach with a conventional
classification backend. We combine semantic and writing style embeddings
derived from pre-trained deep neural networks with additional numerical
features, specifically designed for this task. Ensembles of Logistic Regression
classifiers and Support Vector Machines are used to derive predictions for each
subtask via a majority voting scheme. Our best submission achieved
macro-averaged F1-scores of 66.8%, 69.9% and 72.5% for the identification of
toxic, engaging, and fact-claiming comments.
- Abstract(参考訳): 本稿では,gengeval 2021におけるデータサイエンス・キッチンにおける有害性,関与性,事実を訴えるコメントの識別に関する共通タスクの貢献について述べる。
このタスクは、モデレーターやコミュニティマネージャがファクトチェックに優先すべきコメントを識別する追加のサブタスクを含め、攻撃的な言語の識別を拡張することを目的としている。
私たちのコントリビューションは,従来の分類バックエンドを備えた機能エンジニアリングアプローチに重点を置いています。
我々は、事前学習されたディープニューラルネットワークから派生した意味的および文章的埋め込みと、このタスク用に特別に設計された追加の数値的特徴を組み合わせる。
ロジスティック回帰分類器とサポートベクトルマシンのアンサンブルは、多数決による各サブタスクの予測を導出するために使用される。
我々のベストセプションは、毒性、エンゲージメント、事実を主張するコメントの識別に対して66.8%、69.9%、72.5%のマクロ平均F1スコアを達成した。
関連論文リスト
- USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature
Engineering Strategies for Arabic Dialect Identification [0.0]
本研究では,表面前処理,形態前処理,FastTextベクトルモデル,TF-IDF特性の重み付け結合の影響について検討する。
評価段階では,F1スコアが62.51%となる,注目すべき結果が得られた。
論文 参考訳(メタデータ) (2023-12-16T20:23:53Z) - A ML-LLM pairing for better code comment classification [0.0]
コードコメント分類共有タスク課題に対して,2倍の評価を行うことで回答する。
私たちの最高のモデルは、共有タスクで2位となり、提供されたシードデータに対して、マクロF1スコアが88.401%のニューラルネットワークです。
論文 参考訳(メタデータ) (2023-10-13T12:43:13Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Association Graph Learning for Multi-Task Classification with Category
Shifts [68.58829338426712]
関連する分類タスクが同じラベル空間を共有し、同時に学習されるマルチタスク分類に焦点を当てる。
我々は、不足クラスのためのタスク間で知識を伝達する関連グラフを学習する。
我々の手法は代表的基準よりも一貫して性能が良い。
論文 参考訳(メタデータ) (2022-10-10T12:37:41Z) - UU-Tax at SemEval-2022 Task 3: Improving the generalizability of
language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。
タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。
より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-10-07T07:41:28Z) - BEIKE NLP at SemEval-2022 Task 4: Prompt-Based Paragraph Classification
for Patronizing and Condescending Language Detection [13.944149742291788]
PCL検出タスクは、メディアの脆弱なコミュニティを保護し、あるいは支持している言語を特定することを目的としている。
本稿では,段落分類における素早い学習の力を活用した解法について紹介する。
論文 参考訳(メタデータ) (2022-08-02T08:38:47Z) - Overview of ADoBo 2021: Automatic Detection of Unassimilated Borrowings
in the Spanish Press [8.950918531231158]
本稿では、IberLef 2021の文脈で提案された、ADoBo 2021共有タスクの主な成果を要約する。
本課題では,スペイン語ニュースワイヤテキスト中の語彙借用(主に英語からの引用)を検出するために参加者を招待した。
参加者に、トレーニング、開発、テスト分割に分割した語彙借入の注釈付きコーパスを提供した。
論文 参考訳(メタデータ) (2021-10-29T11:07:59Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - SemEval-2020 Task 10: Emphasis Selection for Written Text in Visual
Media [50.29389719723529]
本稿では,SemEval-2020 Task 10, Emphasis Selection for Written Text in Visual Media の主な成果とその結果を比較した。
この共有タスクの目的は、強調選択のための自動メソッドを設計することである。
タスクに送信されたシステムの解析は、BERTとRoBERTaが、トレーニング済みモデルの最も一般的な選択であることを示している。
論文 参考訳(メタデータ) (2020-08-07T17:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。