論文の概要: The Inception Team at NSURL-2019 Task 8: Semantic Question Similarity in
Arabic
- arxiv url: http://arxiv.org/abs/2004.11964v1
- Date: Fri, 24 Apr 2020 19:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 03:44:00.714710
- Title: The Inception Team at NSURL-2019 Task 8: Semantic Question Similarity in
Arabic
- Title(参考訳): nsurl-2019タスク8のインセプションチーム: アラビア語における意味的質問の類似性
- Authors: Hana Al-Theiabat and Aisha Al-Sadi
- Abstract要約: 本稿では,アラビア語における意味的質問類似性の課題について述べる。
目的は、提供されたデータセットに対して、アラビア語で同様の意味論を検出できるモデルを構築することである。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our method for the task of Semantic Question Similarity
in Arabic in the workshop on NLP Solutions for Under-Resourced Languages
(NSURL). The aim is to build a model that is able to detect similar semantic
questions in the Arabic language for the provided dataset. Different methods of
determining questions similarity are explored in this work. The proposed models
achieved high F1-scores, which range from (88% to 96%). Our official best
result is produced from the ensemble model of using a pre-trained multilingual
BERT model with different random seeds with 95.924% F1-Score, which ranks the
first among nine participants teams.
- Abstract(参考訳): 本稿では,NLP Solutions for Under-Resourced Languages (NSURL) ワークショップにおいて,アラビア語における意味的質問類似性の課題について述べる。
目的は、提供されたデータセットに対して、アラビア語で同様の意味論を検出できるモデルを構築することである。
質問の類似性を決定する様々な方法が本研究で検討されている。
提案されたモデルは高いF1スコア(88%から96%)を達成した。
我々の公式な成果は、95.924%のF1スコアを持つ異なるランダムシードを持つ事前訓練された多言語BERTモデルを用いたアンサンブルモデルから得られます。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - FiSSA at SemEval-2020 Task 9: Fine-tuned For Feelings [2.362412515574206]
本稿では,スペイン語と英語の混在するソーシャルメディアデータを用いた感情分類手法を提案する。
単言語モデルと多言語モデルの両方を標準微調整法を用いて検討する。
2段階の微調整により、ベースモデルよりも感情分類性能が向上するが、大規模多言語XLM-RoBERTaモデルではF1スコアが最適である。
論文 参考訳(メタデータ) (2020-07-24T14:48:27Z) - Multi-Dialect Arabic BERT for Country-Level Dialect Identification [1.2928709656541642]
提案する実験と、競合するチームであるMawdoo3 AIによって開発されたモデルについて述べる。
方言識別サブタスクは、アラブ21カ国すべてをカバーする21,000の国レベルのラベル付きつぶやきを提供する。
優勝したソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルの名称で公開します。
論文 参考訳(メタデータ) (2020-07-10T21:11:46Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z) - Tha3aroon at NSURL-2019 Task 8: Semantic Question Similarity in Arabic [5.214494546503266]
NSURL 2019のセマンティックテキスト質問類似性タスクに対するチームの取り組みについて述べる。
我々のトップパフォーマンスシステムは、トレーニングデータを拡大するために、いくつかの革新的なデータ拡張技術を利用している。
データの事前学習されたコンテキスト埋め込みをELMoが受け取り、自己注意型のON-LSTMネットワークにフィードする。
論文 参考訳(メタデータ) (2019-12-28T20:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。