論文の概要: \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages
- arxiv url: http://arxiv.org/abs/2204.08083v1
- Date: Sun, 17 Apr 2022 20:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 01:48:47.873463
- Title: \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages
- Title(参考訳): oso:低資源アフリカ言語における対話の自然言語生成における言語間変換可能性の活用
- Authors: Tosin Adewumi, Mofetoluwa Adeyemi, Aremu Anuoluwapo, Bukola Peters,
Happy Buzaaba, Oyerinde Samuel, Amina Mardiyyah Rufai, Benjamin Ajibade,
Tajudeen Gwadabe, Mory Moussou Koulibaly Traore, Tunde Ajayi, Shamsuddeen
Muhammad, Ahmed Baruwa, Paul Owoicho, Tolulope Ogunremi, Phylis Ngigi,
Orevaoghene Ahia, Ruqayya Nasir, Foteini Liwicki and Marcus Liwicki
- Abstract要約: 本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
- 参考スコア(独自算出の注目度): 0.9511471519043974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the possibility of cross-lingual transfer from a
state-of-the-art (SoTA) deep monolingual model (DialoGPT) to 6 African
languages and compare with 2 baselines (BlenderBot 90M, another SoTA, and a
simple Seq2Seq). The languages are Swahili, Wolof, Hausa, Nigerian Pidgin
English, Kinyarwanda & Yor\`ub\'a. Generation of dialogues is known to be a
challenging task for many reasons. It becomes more challenging for African
languages which are low-resource in terms of data. Therefore, we translate a
small portion of the English multi-domain MultiWOZ dataset for each target
language. Besides intrinsic evaluation (i.e. perplexity), we conduct human
evaluation of single-turn conversations by using majority votes and measure
inter-annotator agreement (IAA). The results show that the hypothesis that deep
monolingual models learn some abstractions that generalise across languages
holds. We observe human-like conversations in 5 out of the 6 languages. It,
however, applies to different degrees in different languages, which is
expected. The language with the most transferable properties is the Nigerian
Pidgin English, with a human-likeness score of 78.1%, of which 34.4% are
unanimous. The main contributions of this paper include the representation
(through the provision of high-quality dialogue data) of under-represented
African languages and demonstrating the cross-lingual transferability
hypothesis for dialogue systems. We also provide the datasets and host the
model checkpoints/demos on the HuggingFace hub for public access.
- Abstract(参考訳): 本研究では,最先端(SoTA)深層単言語モデル(DialoGPT)からアフリカ6言語への言語間移動の可能性について検討し,BlenderBot 90M,別のSoTA,単純なSeq2Seqと比較した。
言語はスワヒリ語、ウォロフ語、ハウサ語、ナイジェリア語、ピジン語、キニアルワンダ語、ヨルブワ語である。
対話の生成は多くの理由から難しい課題であることが知られている。
データの観点からは、低リソースのアフリカの言語では、より困難になる。
したがって、ターゲット言語毎に、英語のマルチドメインMultiWOZデータセットのごく一部を翻訳する。
本研究は,本質的な評価(パープレキシティ)に加えて,多数決とアノテータ間合意(IAA)を用いて,単回会話の人間による評価を行う。
その結果、深い単言語モデルが言語をまたがる抽象概念を学ぶという仮説が示された。
6言語中5言語で人間のような会話を観察する。
しかし、それは期待されている異なる言語で異なる程度に適用される。
最も移動可能な言語はナイジェリアのピジン英語であり、人間に似たスコアは78.1%であり、そのうち34.4%が全会一致である。
本研究の主な貢献は、アフリカ諸語の表現(高品質な対話データ提供)と対話システムにおける言語間移動可能性仮説の実証である。
また、公開アクセスのためにhughingface hubでデータセットを提供し、モデルチェックポイント/デモをホストします。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - Multilingual Language Model Adaptive Fine-Tuning: A Study on African
Languages [19.067718464786463]
我々は、アフリカ大陸で広く話されている17の最もリソースの多いアフリカ言語と他の3つの高リソース言語に対して、多言語適応微調整(MAFT)を行う。
多言語 PLM をさらに専門化するため,MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去した。
当社のアプローチでは,LAFTを個々の言語に適用する上で,ディスクスペースを大幅に削減する。
論文 参考訳(メタデータ) (2022-04-13T16:13:49Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。