論文の概要: LLM-RM at SemEval-2023 Task 2: Multilingual Complex NER using
XLM-RoBERTa
- arxiv url: http://arxiv.org/abs/2305.03300v1
- Date: Fri, 5 May 2023 06:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:07:31.535512
- Title: LLM-RM at SemEval-2023 Task 2: Multilingual Complex NER using
XLM-RoBERTa
- Title(参考訳): SemEval-2023 Task 2: XLM-RoBERTaを用いた多言語複合NER
- Authors: Rahul Mehta and Vasudeva Varma
- Abstract要約: 本稿では、複雑な名前付きエンティティの多言語設定におけるNERタスクの解決に焦点をあてる。
提案手法は,XLM-Roberta ベースモデルによる言語間表現を,12言語すべてのデータセット上で活用することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 13.062351454646912
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Named Entity Recognition(NER) is a task of recognizing entities at a token
level in a sentence. This paper focuses on solving NER tasks in a multilingual
setting for complex named entities. Our team, LLM-RM participated in the
recently organized SemEval 2023 task, Task 2: MultiCoNER II,Multilingual
Complex Named Entity Recognition. We approach the problem by leveraging
cross-lingual representation provided by fine-tuning XLM-Roberta base model on
datasets of all of the 12 languages provided -- Bangla, Chinese, English,
Farsi, French, German, Hindi, Italian, Portuguese, Spanish, Swedish and
Ukrainian
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、文中のトークンレベルでエンティティを認識するタスクである。
本稿では、複雑な名前付きエンティティの多言語設定におけるNERタスクの解決に焦点をあてる。
我々のチームであるLM-RMは、最近組織されたSemEval 2023タスク、Task 2: MultiCoNER II、Multilingual Complex Named Entity Recognitionに参加した。
我々は、バングラ語、中国語、英語、ファルシ語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、スウェーデン語、ウクライナ語の全12言語のデータセットを微調整したxlm-robertaベースモデルによって提供される言語横断表現を利用してこの問題にアプローチする。
関連論文リスト
- LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - 2M-NER: Contrastive Learning for Multilingual and Multimodal NER with Language and Modal Fusion [9.038363543966263]
我々は、4つの言語(英語、フランス語、ドイツ語、スペイン語)と2つのモーダル性(テキストと画像)を持つ大規模MMNERデータセットを構築した。
2M-NERと呼ばれる新しいモデルを導入し、コントラスト学習を用いてテキストと画像の表現を整列させ、マルチモーダル協調モジュールを統合する。
比較ベースラインや代表ベースラインと比較して,多言語および多モーダルNERタスクにおいてF1スコアが最も高い。
論文 参考訳(メタデータ) (2024-04-26T02:34:31Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition
(MultiCoNER 2) [21.033381060735874]
MultiCoNER 2はSemEval-2023で最も人気のあるタスクの1つである。
47チームから842名が参加し、34チームがシステム論文を提出した。
外部知識をトランスフォーマーモデルに融合させる手法は最高の性能を達成した。
いくつかのきめ細かいクラスは、SCIENTIST、ARTWORK、PRIVATECORPなど、他のクラスよりも難しいことが判明した。
論文 参考訳(メタデータ) (2023-05-11T05:56:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models [100.29953199404905]
語彙重複の少ない言語間でのトークン共有を非強調化することにより,多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-V は低リソースの言語タスクに特に有効であり、マサハナーとアメリカの NLI では XLM-R を 11.2% と 5.8% で上回っている。
論文 参考訳(メタデータ) (2023-01-25T09:15:17Z) - Domain Adaptive Pretraining for Multilingual Acronym Extraction [7.318106000226068]
本稿では,複数言語の頭字語抽出作業SDU@AAAI-22に参加することで得られた知見について述べる。
このタスクは、科学的および法的領域内の6つの言語の文書から頭字語抽出によって構成される。
我々のシステム(チーム: SMR-NLP)は、すべての言語で頭字語抽出の競争性能を達成した。
論文 参考訳(メタデータ) (2022-06-30T12:11:39Z) - UM6P-CS at SemEval-2022 Task 11: Enhancing Multilingual and Code-Mixed
Complex Named Entity Recognition via Pseudo Labels using Multilingual
Transformer [7.270980742378389]
提案手法を多言語複合名前認識(MultiCoNER)共有タスクに導入する。
我々は,多言語変換器 XLM-RoBERTa が提供する文脈化表現を頼りに,多言語およびコード混合クエリの複雑な NER にアプローチする。
提案システムは多言語とコード混在したMultiCoNERのトラックにおいて,それぞれ6位と8位にランクされている。
論文 参考訳(メタデータ) (2022-04-28T14:07:06Z) - Qtrade AI at SemEval-2022 Task 11: An Unified Framework for Multilingual
NER Task [10.167123492952694]
本稿では,多言語トラック(サブタスク11)で3位,コードミキシングトラック(サブタスク12)で4位,中国語トラック(サブタスク9)で7位となるシステムについて述べる。
1)多言語NERタスクでは、単一言語または多言語NERタスクを容易に実行可能な統合フレームワーク、2)低リソースのコード混在NERタスクでは、複数の単純なデータ拡張メソッドを実装して、容易にデータセットを拡張できるフレームワーク、3)中国語タスクでは、中国語の語彙的意味、語彙的境界をキャプチャできるモデルを提案する。
論文 参考訳(メタデータ) (2022-04-14T07:51:36Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。