論文の概要: LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation
- arxiv url: http://arxiv.org/abs/2005.04322v1
- Date: Sat, 9 May 2020 00:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 06:51:22.388341
- Title: LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation
- Title(参考訳): LinCE: 言語的コードスイッチング評価のための集中ベンチマーク
- Authors: Gustavo Aguilar, Sudipta Kar, and Thamar Solorio
- Abstract要約: 言語コードスイッチング評価(LinCE)のためのベンチマークを提案する。
LinCEは4つの異なるコード変更言語ペアをカバーする10のコーパスを結合する。
LSTM,ELMo,多言語BERTなど,さまざまな人気モデルのスコアを提供する。
- 参考スコア(独自算出の注目度): 13.947879344871442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent trends in NLP research have raised an interest in linguistic
code-switching (CS); modern approaches have been proposed to solve a wide range
of NLP tasks on multiple language pairs. Unfortunately, these proposed methods
are hardly generalizable to different code-switched languages. In addition, it
is unclear whether a model architecture is applicable for a different task
while still being compatible with the code-switching setting. This is mainly
because of the lack of a centralized benchmark and the sparse corpora that
researchers employ based on their specific needs and interests. To facilitate
research in this direction, we propose a centralized benchmark for Linguistic
Code-switching Evaluation (LinCE) that combines ten corpora covering four
different code-switched language pairs (i.e., Spanish-English, Nepali-English,
Hindi-English, and Modern Standard Arabic-Egyptian Arabic) and four tasks
(i.e., language identification, named entity recognition, part-of-speech
tagging, and sentiment analysis). As part of the benchmark centralization
effort, we provide an online platform at ritual.uh.edu/lince, where researchers
can submit their results while comparing with others in real-time. In addition,
we provide the scores of different popular models, including LSTM, ELMo, and
multilingual BERT so that the NLP community can compare against
state-of-the-art systems. LinCE is a continuous effort, and we will expand it
with more low-resource languages and tasks.
- Abstract(参考訳): NLP研究の最近の傾向は言語コードスイッチング(CS)への関心を高め、近代的なアプローチは複数の言語対における幅広いNLPタスクを解決するために提案されている。
残念ながら、これらの提案手法は異なるコード切り換え言語にほとんど一般化できない。
さらに、モデルアーキテクチャがコードスイッチング設定と互換性を持ちながら、別のタスクに適用できるかどうかも不明である。
これは主に、研究者が特定のニーズと関心に基づいて採用する、集中型ベンチマークとスパースコーパスの欠如によるものである。
そこで本研究では,4つの異なる言語ペア(スペイン語・英語・ネパール語・ヒンズー語・ヒンズー語・現代標準アラビア語)と4つのタスク(言語識別,名前付きエンティティ認識,パート・オブ・スパイチ・タグ付け,感情分析)を組み合わせた,言語コード切り換え評価(lince)の一元的ベンチマークを提案する。
ベンチマーク集中化の取り組みの一環として、私たちは ritual.uh.edu/lince でオンラインプラットフォームを提供しています。
さらに,NLPコミュニティが最先端システムと比較できるように,LSTM,ELMo,多言語BERTなど,さまざまな人気モデルのスコアを提供する。
LinCEは継続的な取り組みであり、より低リソースの言語やタスクで拡張します。
関連論文リスト
- Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - SCALE: Scaling up the Complexity for Advanced Language Model Evaluation [19.339580164451256]
現在のLarge Language Models (LLM) に課題をもたらす新しい NLP ベンチマークを導入する。
我々のベンチマークはスイスの法体系の様々な法的NLPデータセットで構成されている。
本研究の一環として,ベンチマークで事前学習した複数言語モデルを評価し,基準点として強いベースラインを確立する。
論文 参考訳(メタデータ) (2023-06-15T16:19:15Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering
for Zero-Shot Cross-Lingual Transfer and Generation [11.155430893354769]
本稿では,類型的に多様な言語から共有可能な構造を学習するためのメタラーニングフレームワークを提案する。
まず、まず言語表現に基づいて言語をクラスタ化し、各クラスタのセントロイド言語を識別する。
メタ学習アルゴリズムは、全てのセントロイド言語で訓練され、ゼロショット設定で他の言語で評価される。
論文 参考訳(メタデータ) (2022-03-19T05:22:07Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。