論文の概要: The interplay between morphological typology and script on a novel
multi-layer Algerian dialect corpus
- arxiv url: http://arxiv.org/abs/2105.07400v1
- Date: Sun, 16 May 2021 10:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 07:03:19.471241
- Title: The interplay between morphological typology and script on a novel
multi-layer Algerian dialect corpus
- Title(参考訳): 新たな多層アルジェリア方言コーパスにおける形態的タイポロジーとスクリプトの相互作用
- Authors: Samia Touileb and Jeremy Barnes
- Abstract要約: ラテン語、アラビア語、コード切り替えスクリプトで書かれたアルジェリアのパラレルアノテーションを含む、アルジェリアのユーザー生成コメントの新しい注釈付きコーパスを紹介します。
感情分析の感度は低かったが,音声の書き方とタイポロジーには微妙な関係があることが判明した。
- 参考スコア(独自算出の注目度): 4.974890682815778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen a rise in interest for cross-lingual transfer between
languages with similar typology, and between languages of various scripts.
However, the interplay between morphological typology and difference in script
on cross-lingual transfer is a less studied problem. We explore this interplay
on cross-lingual transfer for two supervised tasks, namely part-of-speech
tagging and sentiment analysis. We introduce a newly annotated corpus of
Algerian user-generated comments comprising parallel annotations of Algerian
written in Latin, Arabic, and code-switched scripts, as well as annotations for
sentiment and topic categories. We perform baseline experiments by fine-tuning
multi-lingual language models. We further explore the effect of script vs.
morphological typology in cross-lingual transfer by fine-tuning multi-lingual
models on languages which are a) morphologically distinct, but use the same
script, b) morphologically similar, but use a distinct script, or c) are
morphologically similar and use the same script. We find there is a delicate
relationship between script and typology for part-of-speech, while sentiment
analysis is less sensitive.
- Abstract(参考訳): 近年、類似の類型を持つ言語間、および様々なスクリプトの言語間における言語間移動への関心が高まっている。
しかし, 言語間移動における形態的類型と文字の相違は, あまり研究されていない問題である。
本稿では,2つの教師付きタスクに対する言語間伝達に関するこのインタープレイ,すなわちパーシャル・オブ・スパイチ・タギングと感情分析について検討する。
本稿では,ラテン文字,アラビア文字,コード切り換えスクリプトで記述されたアルジェリア語の並列アノテーションと,感情や話題カテゴリのアノテーションを含む,新たにアノテートされたalgerianユーザ生成コメントコーパスを紹介する。
多言語モデルの微調整によるベースライン実験を行う。
さらに、a)形態的に異なる言語に対する微調整多言語モデルによる言語間移動におけるスクリプト対形態素変換の効果について検討するが、b)形態学的に類似しているが、c)形態学的に類似しており、同一のスクリプトを使用する。
感情分析の感度は低かったが,文章と音韻には微妙な関係があることがわかった。
関連論文リスト
- Unknown Script: Impact of Script on Cross-Lingual Transfer [2.5398014196797605]
言語間移動は、言語間で知識を伝達する効果的な方法となっている。
対象言語とそのスクリプトが事前訓練されたモデルの一部ではない場合を考える。
この結果から, 共通スクリプト, 言語類似性, モデルサイズよりも, トークン化の重要性が示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:48:01Z) - Mapping 'when'-clauses in Latin American and Caribbean languages: an experiment in subtoken-based typology [0.0]
本稿は,ラテンアメリカとカリブ海の言語間における時間的順序付け("when'-clauses")の表現の変動について考察する。
この地域の言語に基づいて計算された確率論的意味写像を提示し、レックス化されたコネクタのみを使用する多くの世界の言語に対する偏見を避ける。
このアプローチにより、レックス化されたコネクタに加えて、形態的節間リンク装置をキャプチャでき、時間的部分座標のタイプ論的変動の大規模かつ戦略に依存しない分析を行うことができる。
論文 参考訳(メタデータ) (2024-04-28T17:43:24Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - What does it mean to be language-agnostic? Probing multilingual sentence
encoders for typological properties [17.404220737977738]
最先端の多言語エンコーダから文表現を探索する手法を提案する。
本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。
論文 参考訳(メタデータ) (2020-09-27T15:00:52Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。