論文の概要: Vy\=akarana: A Colorless Green Benchmark for Syntactic Evaluation in
Indic Languages
- arxiv url: http://arxiv.org/abs/2103.00854v1
- Date: Mon, 1 Mar 2021 09:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 04:43:17.246796
- Title: Vy\=akarana: A Colorless Green Benchmark for Syntactic Evaluation in
Indic Languages
- Title(参考訳): vy\=akarana:構文評価のための無色緑のベンチマーク
- Authors: Rajaswa Patil, Jasleen Dhillon, Siddhant Mahurkar, Saumitra Kulkarni,
Manav Malhotra and Veeky Baths
- Abstract要約: インジケート言語は、豊富なモーフィオシンタックス、文法的ジェンダー、自由な線形単語順序、および高インフレクション型形態学を有する。
Vy=akarana - 多言語言語モデルの構文評価のためのIndic言語における性別バランスの取れたカラーレスグリーン文のベンチマーク。
評価タスクから得られたデータセットを用いて、さまざまなアーキテクチャの5つの多言語言語モデルをIndic言語で調べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there has been significant progress towards developing NLU datasets and
benchmarks for Indic languages, syntactic evaluation has been relatively less
explored. Unlike English, Indic languages have rich morphosyntax, grammatical
genders, free linear word-order, and highly inflectional morphology. In this
paper, we introduce Vy\=akarana: a benchmark of gender-balanced Colorless Green
sentences in Indic languages for syntactic evaluation of multilingual language
models. The benchmark comprises four syntax-related tasks: PoS Tagging, Syntax
Tree-depth Prediction, Grammatical Case Marking, and Subject-Verb Agreement. We
use the datasets from the evaluation tasks to probe five multilingual language
models of varying architectures for syntax in Indic languages. Our results show
that the token-level and sentence-level representations from the Indic language
models (IndicBERT and MuRIL) do not capture the syntax in Indic languages as
efficiently as the other highly multilingual language models. Further, our
layer-wise probing experiments reveal that while mBERT, DistilmBERT, and XLM-R
localize the syntax in middle layers, the Indic language models do not show
such syntactic localization.
- Abstract(参考訳): nluデータセットやindic言語のベンチマークの開発には大きな進展があったが、構文的評価は比較的少ない。
英語とは異なり、Indic言語は豊富な形態素構文、文法的性別、自由線形語順、高い屈折形態素を持っている。
本稿では,多言語言語モデルの構文評価のために,indic 言語における有色無色文の性バランスベンチマークである vy\=akarana について述べる。
このベンチマークは、PoSタグ、Syntax Tree-Depth Prediction、文法的なケースマーキング、およびSubject-Verb Agreementの4つの構文関連タスクで構成されている。
評価タスクから得られたデータセットを用いて、さまざまなアーキテクチャの5つの多言語言語モデルをIndic言語で調べる。
その結果,indic language model(indicbertおよびmuril)のトークンレベルおよび文レベルの表現は,他の高度多言語言語モデルほど効率的にindic languageの構文を捉えていないことがわかった。
さらに,中間層ではmBERT,DistilmBERT,XLM-Rが局所化されているが,Indic言語モデルではそのような構文的局所化は示されていない。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages? [14.77467551053299]
トランスフォーマーベースのモデルは自然言語処理の分野に革命をもたらした。
入力テキストの摂動に直面する言語特性の符号化におけるこれらのモデルはどの程度堅牢か?
本稿では,13の摂動にまたがる8つの言語特性に対して,符号化能力とロバスト性に関する類似の疑問を6つのIndic言語で検討する。
論文 参考訳(メタデータ) (2024-10-03T15:50:08Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs [2.9521383230206966]
本稿では,RuBLiMP (Linguistic Minimal Pairs) のロシア語ベンチマークを紹介する。
RuBLiMPは文法性が異なる45k対の文を含み、形態的、構文的、意味的な現象を分離する。
ロシア語の言語モデルは, 構造的・合意的コントラストに敏感であるが, 構造的関係, 否定, 推移性, 時制の理解を必要とする現象に人間に遅れがあることが判明した。
論文 参考訳(メタデータ) (2024-06-27T14:55:19Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。