論文の概要: TEAM-Atreides at SemEval-2022 Task 11: On leveraging data augmentation
and ensemble to recognize complex Named Entities in Bangla
- arxiv url: http://arxiv.org/abs/2204.09964v1
- Date: Thu, 21 Apr 2022 08:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 20:53:13.796475
- Title: TEAM-Atreides at SemEval-2022 Task 11: On leveraging data augmentation
and ensemble to recognize complex Named Entities in Bangla
- Title(参考訳): semeval-2022 タスク11: バングラデシュの複雑な名前付きエンティティを認識するためのデータ拡張とアンサンブルの活用について
- Authors: Nazia Tasnim, Md. Istiak Hossain Shihab, Asif Shahriyar Sushmit,
Steven Bethard and Farig Sadeque
- Abstract要約: 複雑な名前付きエンティティの識別に関するSemEval 2022 Task 11へのコントリビューションについて述べる。
我々は、バングラ語でのみ事前訓練された複数のELECTRAベースのモデルのアンサンブルを活用している。
また、アーキテクチャ決定、データセットの強化、競合後の発見に関する実験の結果も提示します。
- 参考スコア(独自算出の注目度): 11.963792253163247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many areas, such as the biological and healthcare domain, artistic works, and
organization names, have nested, overlapping, discontinuous entity mentions
that may even be syntactically or semantically ambiguous in practice.
Traditional sequence tagging algorithms are unable to recognize these complex
mentions because they may violate the assumptions upon which sequence tagging
schemes are founded. In this paper, we describe our contribution to SemEval
2022 Task 11 on identifying such complex Named Entities. We have leveraged the
ensemble of multiple ELECTRA-based models that were exclusively pretrained on
the Bangla language with the performance of ELECTRA-based models pretrained on
English to achieve competitive performance on the Track-11. Besides providing a
system description, we will also present the outcomes of our experiments on
architectural decisions, dataset augmentations, and post-competition findings.
- Abstract(参考訳): 生物学的・医療領域、芸術作品、組織名など多くの分野は、実際には構文的にも意味的にも曖昧であるかもしれない、ネストし、重複し、不連続な実体に言及している。
従来のシーケンスタグ付けアルゴリズムは、シーケンスタグ付けスキームが確立される仮定に違反する可能性があるため、これらの複雑な言及を認識できない。
本稿では,SemEval 2022 Task 11における,このような複雑な名前付きエンティティの同定への貢献について述べる。
我々は,バングラ語でのみ事前訓練された複数のELECTRAベースのモデルのアンサンブルを,英語で事前訓練されたELECTRAベースのモデルの性能を利用してトラック11の競争性能を実現した。
システム記述の提供に加えて、アーキテクチャ決定、データセットの強化、競合後の発見に関する実験の結果も提示します。
関連論文リスト
- Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - Divide, Conquer, and Combine: Mixture of Semantic-Independent Experts
for Zero-Shot Dialogue State Tracking [83.40120598637665]
対話状態追跡(DST)のためのゼロショット転送学習は、ドメイン内のデータを収集するコストを伴わずに、様々なタスク指向の対話ドメインを扱うのに役立つ。
既存の研究は主に一般化を強化するために、一般的なデータまたはモデルレベルの拡張方法を研究する。
我々は、見られているデータのセマンティクスを明示的に切り離す、単純で効果的な「分割、征服、結合」ソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-01T08:21:20Z) - BanglaCoNER: Towards Robust Bangla Complex Named Entity Recognition [0.0]
本稿では,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。
データセットはトレーニング用15300文と検証用800文で構成されている。
また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-16T13:31:31Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - SU-NLP at SemEval-2022 Task 11: Complex Named Entity Recognition with
Entity Linking [0.0]
我々は、ウィキペディアの助けを借りて、潜在的なエンティティの言及を検出する、教師なしエンティティリンクパイプラインを開発した。
その結果,低コンテキスト環境における複雑なエンティティに対して,パイプラインの性能が大幅に向上したことがわかった。
論文 参考訳(メタデータ) (2022-03-22T16:09:34Z) - USTC-NELSLIP at SemEval-2022 Task 11: Gazetteer-Adapted Integration
Network for Multilingual Complex Named Entity Recognition [41.26523047041553]
本稿では,SemEval-2022 Task 11 Multilingual Complex Named Entities Recognition (MultiCoNER)のためにUSTC-NELSLIPチームが開発したシステムについて述べる。
本稿では,複雑な名前付きエンティティを認識するための言語モデルの性能向上のために,ガゼッタ適応統合ネットワーク(GAIN)を提案する。
論文 参考訳(メタデータ) (2022-03-07T09:05:37Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z) - LMN at SemEval-2022 Task 11: A Transformer-based System for English
Named Entity Recognition [0.0]
本稿では,SemEval-2022 Task 11: Multilingual Complex Named Entity Recognition の英語トラックへの参加について述べる。
事前訓練されたトランスフォーマー言語モデルの最近の進歩に触発されて,タスクのためのシンプルで効果的なトランスフォーマーベースラインを提案する。
提案したアプローチは、30チーム中12チームを対象にして、リーダボードの競争結果を示しています。
論文 参考訳(メタデータ) (2022-02-13T05:46:14Z) - SynSetExpan: An Iterative Framework for Joint Entity Set Expansion and
Synonym Discovery [66.24624547470175]
SynSetExpanは2つのタスクを相互に拡張できる新しいフレームワークである。
クラウドソーシングによる最初の大規模Synonym-Enhanced Set Expansionデータセットを作成する。
SE2データセットと以前のベンチマークの実験では、エンティティセットの拡張と同義語発見タスクの両方においてSynSetExpanの有効性が示されている。
論文 参考訳(メタデータ) (2020-09-29T07:32:17Z) - Grounded Situation Recognition [56.18102368133022]
画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
論文 参考訳(メタデータ) (2020-03-26T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。