論文の概要: Language Variety Identification with True Labels
- arxiv url: http://arxiv.org/abs/2303.01490v1
- Date: Thu, 2 Mar 2023 18:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 12:59:27.077667
- Title: Language Variety Identification with True Labels
- Title(参考訳): 真のラベルを用いた言語多様性の識別
- Authors: Marcos Zampieri, Kai North, Tommi Jauhiainen, Mariano Felice, Neha
Kumari, Nishant Nair, Yash Bangera
- Abstract要約: 本稿では,言語多様性を識別する最初の人間アノテーション付き多言語データセットであるDSL True Labels (-TL)を提案する。
DSL-TLは、ポルトガル語で12,900件、ポルトガル語で12,900件、スペイン語でアルゼンチン語でスペイン語とカスティーリャ語でスペイン語、英語でアメリカ英語とイギリス英語に分けられている。
我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。
- 参考スコア(独自算出の注目度): 7.9815074811220175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language identification is an important first step in many IR and NLP
applications. Most publicly available language identification datasets,
however, are compiled under the assumption that the gold label of each instance
is determined by where texts are retrieved from. Research has shown that this
is a problematic assumption, particularly in the case of very similar languages
(e.g., Croatian and Serbian) and national language varieties (e.g., Brazilian
and European Portuguese), where texts may contain no distinctive marker of the
particular language or variety. To overcome this important limitation, this
paper presents DSL True Labels (DSL-TL), the first human-annotated multilingual
dataset for language variety identification. DSL-TL contains a total of 12,900
instances in Portuguese, split between European Portuguese and Brazilian
Portuguese; Spanish, split between Argentine Spanish and Castilian Spanish; and
English, split between American English and British English. We trained
multiple models to discriminate between these language varieties, and we
present the results in detail. The data and models presented in this paper
provide a reliable benchmark toward the development of robust and fairer
language variety identification systems. We make DSL-TL freely available to the
research community.
- Abstract(参考訳): 言語識別は多くのIRおよびNLPアプリケーションにおいて重要な第一歩である。
しかし、ほとんどの公開言語識別データセットは、各インスタンスのゴールドラベルがテキストの取得場所によって決定されるという仮定の下でコンパイルされる。
これは特に、非常に類似した言語(クロアチア語やセルビア語など)や、ブラジル語やヨーロッパ・ポルトガル語など)において問題となる仮定であり、テキストには特定の言語や品種の識別マーカーが含まれていない可能性がある。
この重要な制限を克服するために,本論文では,言語多様性識別のための最初の人間アノテーション付き多言語データセットであるDSL-TLを提案する。
dsl-tlは、ポルトガル語で12,900件、ポルトガル語とブラジルポルトガル語で分割、スペイン語でアルゼンチン語とカスティーリャ語に分割、英語でアメリカ英語とイギリス英語に分割されている。
我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。
本論文で提示されたデータとモデルは,頑健で公平な言語多様性識別システムの開発に向けた,信頼性の高いベンチマークを提供する。
DSL-TLを研究コミュニティに無償で提供します。
関連論文リスト
- Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets [1.1647644386277962]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文 参考訳(メタデータ) (2024-03-06T18:14:22Z) - Lost in Translation, Found in Spans: Identifying Claims in Multilingual
Social Media [40.26888469822391]
クレームスパン識別(CSI)は、ファクトチェックパイプラインの重要なステップである。
ジャーナリストや人間のファクトチェッカーにとって重要な問題だが、いまだに過小評価されている問題である。
我々は、多くのソーシャルメディアプラットフォームから5つのインド語と英語で収集された7Kの現実世界のクレームからなる、新しいデータセットX-CLAIMを作成します。
論文 参考訳(メタデータ) (2023-10-27T15:28:12Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。