論文の概要: Spoken dialect identification in Twitter using a multi-filter
architecture
- arxiv url: http://arxiv.org/abs/2006.03564v1
- Date: Fri, 5 Jun 2020 17:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:40:56.861027
- Title: Spoken dialect identification in Twitter using a multi-filter
architecture
- Title(参考訳): マルチフィルタアーキテクチャを用いたTwitterの音声方言識別
- Authors: Mohammadreza Banaei, R\'emi Lebret, Karl Aberer
- Abstract要約: 本稿では,SwissText & KONVENS 2020共有タスク2について述べる。
これは、Twitter上でスイスドイツ語(GSW)識別のための多段階ニューラルネットワークである。
我々のモデルはGSWか非GSWのいずれかを出力し、汎用言語識別子として使用するものではない。
- 参考スコア(独自算出の注目度): 2.767620067444815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our approach for SwissText & KONVENS 2020 shared task 2,
which is a multi-stage neural model for Swiss German (GSW) identification on
Twitter. Our model outputs either GSW or non-GSW and is not meant to be used as
a generic language identifier. Our architecture consists of two independent
filters where the first one favors recall, and the second one filter favors
precision (both towards GSW). Moreover, we do not use binary models (GSW vs.
not-GSW) in our filters but rather a multi-class classifier with GSW being one
of the possible labels. Our model reaches F1-score of 0.982 on the test set of
the shared task.
- Abstract(参考訳): 本稿では,swisstext & konvens 2020 shared task 2 に対して,swiss german (gsw) 識別のための多段階ニューラルモデルを提案する。
我々のモデルはGSWか非GSWのいずれかを出力し、汎用言語識別子として使用するものではない。
我々のアーキテクチャは、2つの独立したフィルタで構成されており、第1のフィルタはリコールを好んでおり、第2のフィルタは精度(どちらもGSW)がよい。
さらに、フィルタにはバイナリモデル(GSW vs. not-GSW)を使用しません。
我々のモデルは共有タスクのテストセットで0.982のF1スコアに達する。
関連論文リスト
- One2set + Large Language Model: Best Partners for Keyphrase Generation [42.969689556605005]
キーワード生成(KPG)は、与えられたドキュメントの中核概念を表すフレーズの集合を自動的に生成することを目的としている。
KPGを2つのステップに分解するジェネレータ-then-selectフレームワークを導入し、候補を生成するために12setベースのモデルをジェネレータとして採用し、LLMをセレクタとして使用し、これらの候補からキーフレーズを選択する。
我々のフレームワークは最先端のモデル、特にキーフレーズの欠如をはるかに上回っている。
論文 参考訳(メタデータ) (2024-10-04T13:31:09Z) - SemiReward: A General Reward Model for Semi-supervised Learning [58.47299780978101]
半教師付き学習(SSL)は、擬似ラベリングによる自己学習フレームワークの様々な改善により、大きな進歩をみせた。
主な課題は、高品質な擬似ラベルを確認バイアスと区別する方法である。
本稿では、報酬スコアを予測して高品質な擬似ラベルを評価・フィルタリングするセミ教師付きリワードフレームワーク(SemiReward)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:56:41Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Masked Part-Of-Speech Model: Does Modeling Long Context Help
Unsupervised POS-tagging? [94.68962249604749]
フレキシブルな依存性モデリングを容易にするために,MPoSM(Masked Part-of-Speech Model)を提案する。
MPoSMは任意のタグ依存をモデル化し、マスクされたPOS再構成の目的を通じてPOS誘導を行うことができる。
英語のPenn WSJデータセットと10の多様な言語を含むユニバーサルツリーバンクの競合的な結果を得た。
論文 参考訳(メタデータ) (2022-06-30T01:43:05Z) - Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT
Based on the Quran Reciters Dataset [0.0]
We developed a Deep learning model for Arabic speakers identification by using Wav2Vec2.0 and HuBERT audio representation learning tools。
この実験により、ある話者に対する任意の波動信号が98%と97.1%の精度で識別できることが保証された。
論文 参考訳(メタデータ) (2021-11-11T17:44:50Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - Comparing Approaches to Dravidian Language Identification [4.284178873394113]
本稿では、VarDial 2021ワークショップにおいて、チームHWRによるDLI(Dravidian Language Identification)共有タスクへの提出について述べる。
DLIトレーニングセットには、ローマ文字で書かれた16,674のYouTubeコメントが含まれ、英語とコードミックスされたテキストと3つの南ドラヴィディアン言語(カンナダ語、マラヤラム語、タミル語)の1つです。
本結果は,他の多くのテキスト分類タスクほど,ディープラーニング手法が言語識別関連タスクと競合するものではない,という考え方を補強するものである。
論文 参考訳(メタデータ) (2021-03-09T16:58:55Z) - Combining Deep Learning and String Kernels for the Localization of Swiss
German Tweets [28.497747521078647]
2番目のサブタスクは、約3万のスイスのドイツのJodelからなるデータセットをターゲットにしています。
我々は、このタスクを2重回帰問題とみなし、緯度と経度の両方を予測するために、さまざまな機械学習アプローチを採用している。
実験結果から,文字列カーネルに基づく手作りモデルの方が,ディープラーニングのアプローチよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-10-07T19:16:45Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。