論文の概要: Two-stage Pipeline for Multilingual Dialect Detection
- arxiv url: http://arxiv.org/abs/2303.03487v2
- Date: Tue, 28 Mar 2023 17:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 18:21:17.956207
- Title: Two-stage Pipeline for Multilingual Dialect Detection
- Title(参考訳): 多言語方言検出のための2段階パイプライン
- Authors: Ankit Vaidya and Aditya Kane
- Abstract要約: 本稿では,VarDial 2023共有タスクに対する我々のアプローチについて概説する。
3つの言語から3つまたは2つの方言を識別する。
トラック1では58.54%、トラック2では85.61%のスコアを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialect Identification is a crucial task for localizing various Large
Language Models. This paper outlines our approach to the VarDial 2023 shared
task. Here we have to identify three or two dialects from three languages each
which results in a 9-way classification for Track-1 and 6-way classification
for Track-2 respectively. Our proposed approach consists of a two-stage system
and outperforms other participants' systems and previous works in this domain.
We achieve a score of 58.54% for Track-1 and 85.61% for Track-2. Our codebase
is available publicly (https://github.com/ankit-vaidya19/EACL_VarDial2023).
- Abstract(参考訳): 方言識別は、様々な大規模言語モデルをローカライズするための重要なタスクである。
本稿では,VarDial 2023共有タスクに対する我々のアプローチの概要を紹介する。
ここでは、3つの言語から3つまたは2つの方言を識別し、それぞれトラック1の9方向分類とトラック2の6方向分類を導出する。
提案手法は,2段階のシステムで構成され,他の参加者のシステムや過去の研究よりも優れている。
トラック1では58.54%、トラック2では85.61%となる。
私たちのコードベースは公開されています(https://github.com/ankit-vaidya19/EACL_VarDial2023)。
関連論文リスト
- MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness [5.91695168183101]
本稿では,SemEval-2024 Task 1 - Semantic Textual RelatednessのMasonTigersエントリについて述べる。
このタスクには、教師なし(Track A)、教師なし(Track B)、14言語にわたる言語横断(Track C)アプローチが含まれる。
我々のアプローチは、トラックAで11位から21位、トラックBで1位から8位、トラックCで5位から12位までランク付けした。
論文 参考訳(メタデータ) (2024-03-22T06:47:42Z) - USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature
Engineering Strategies for Arabic Dialect Identification [0.0]
本研究では,表面前処理,形態前処理,FastTextベクトルモデル,TF-IDF特性の重み付け結合の影響について検討する。
評価段階では,F1スコアが62.51%となる,注目すべき結果が得られた。
論文 参考訳(メタデータ) (2023-12-16T20:23:53Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - MarsEclipse at SemEval-2023 Task 3: Multi-Lingual and Multi-Label
Framing Detection with Contrastive Learning [21.616089539381996]
本稿では,SemEval-2023 Task 3 Subtask 2 on Framing Detectionについて述べる。
我々は,多言語環境下での大規模事前学習言語モデルの微調整に,マルチラベルのコントラスト損失を用いた。
本システムは,6言語のうち5言語について,公式テストセットと共有タスクリーダーボードで第1位にランクインした。
論文 参考訳(メタデータ) (2023-04-20T18:42:23Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Efficient Dialogue State Tracking by Masked Hierarchical Transformer [0.3441021278275805]
我々は、リッチリソース言語によるトレーニングセットと低リソース言語によるテストセットを備えた言語間ダイアログ状態トラッカーを構築した。
スロット操作分類タスクと状態追跡タスクを共同学習する手法を定式化する。
論文 参考訳(メタデータ) (2021-06-28T07:35:49Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。