論文の概要: OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal
Conversations on Online Social Media
- arxiv url: http://arxiv.org/abs/2309.12137v1
- Date: Thu, 21 Sep 2023 14:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:49:28.358569
- Title: OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal
Conversations on Online Social Media
- Title(参考訳): OSN-MDAD:オンラインソーシャルメディア上でのアラビア語多言語会話のための機械翻訳データセット
- Authors: Fatimah Alzamzami, Abdulmotaleb El Saddik
- Abstract要約: 本稿では,英語のつぶやきを4つのアラビア方言に文脈的に翻訳することで構築した,オンラインソーシャルネットワークに基づく多言語アラビア語データセットを提案する。
その結果,我々のデータセットを用いてトレーニングしたニューラルMTモデルの優れた性能を示した。
- 参考スコア(独自算出の注目度): 5.2957928879391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While resources for English language are fairly sufficient to understand
content on social media, similar resources in Arabic are still immature. The
main reason that the resources in Arabic are insufficient is that Arabic has
many dialects in addition to the standard version (MSA). Arabs do not use MSA
in their daily communications; rather, they use dialectal versions.
Unfortunately, social users transfer this phenomenon into their use of social
media platforms, which in turn has raised an urgent need for building suitable
AI models for language-dependent applications. Existing machine translation
(MT) systems designed for MSA fail to work well with Arabic dialects. In light
of this, it is necessary to adapt to the informal nature of communication on
social networks by developing MT systems that can effectively handle the
various dialects of Arabic. Unlike for MSA that shows advanced progress in MT
systems, little effort has been exerted to utilize Arabic dialects for MT
systems. While few attempts have been made to build translation datasets for
dialectal Arabic, they are domain dependent and are not OSN cultural-language
friendly. In this work, we attempt to alleviate these limitations by proposing
an online social network-based multidialect Arabic dataset that is crafted by
contextually translating English tweets into four Arabic dialects: Gulf,
Yemeni, Iraqi, and Levantine. To perform the translation, we followed our
proposed guideline framework for content translation, which could be
universally applicable for translation between foreign languages and local
dialects. We validated the authenticity of our proposed dataset by developing
neural MT models for four Arabic dialects. Our results have shown a superior
performance of our NMT models trained using our dataset. We believe that our
dataset can reliably serve as an Arabic multidialectal translation dataset for
informal MT tasks.
- Abstract(参考訳): 英語のリソースはソーシャルメディア上のコンテンツを理解するのに十分だが、アラビア語のリソースは未熟である。
アラビア語の資源が不足している主な理由は、標準語(MSA)に加えて多くの方言があるからである。
アラブ人は毎日のコミュニケーションにMSAを使用しず、弁証法を使用している。
残念ながら、ソーシャルユーザーはこの現象をソーシャルメディアプラットフォームの利用に移し、言語依存のアプリケーションに適切なaiモデルを構築することを緊急に要求している。
MSA用に設計された既存の機械翻訳(MT)システムはアラビア方言とうまく機能しない。
これを踏まえ、様々なアラビア語の方言を効果的に扱えるMTシステムを開発することにより、ソーシャルネットワーク上の非公式なコミュニケーションに適応する必要がある。
MTシステムの進歩を示すMSAとは異なり、MTシステムにアラビア方言を利用する努力はほとんど行われていない。
方言アラビア語の翻訳データセットを構築する試みはほとんど行われていないが、ドメインに依存しており、OSNの文化的言語に親しみやすいものではない。
本研究では,英語のツイートを4つのアラビア方言(ガルフ語,イエメン語,イラク語,レバント語)に文脈的に翻訳することで構築された,オンラインソーシャルネットワークベースの多言語アラビア語データセットを提案することによって,これらの制限を緩和しようとする。
翻訳を行うには,外国語と地方方言間の翻訳に普遍的に適用可能な,コンテンツ翻訳のためのガイドラインフレームワークを踏襲した。
4つのアラビア方言のニューラルMTモデルを用いて,提案したデータセットの信頼性を検証した。
我々のデータセットを用いてトレーニングしたNMTモデルの優れた性能を示した。
我々のデータセットは、非公式なMTタスクのためのアラビア多言語翻訳データセットとして確実に機能できると信じている。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [53.1913348687902]
アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - AceGPT, Localizing Large Language Models in Arabic [74.47331062873107]
本稿では,アラビア語を対象とする局所的大規模言語モデル(LLM)の開発に着目する。
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答などを含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Automatic Standardization of Arabic Dialects for Machine Translation [0.0]
アラビア語からの機械翻訳はほとんどの場合、原語として標準語または現代アラビア語を用いる。
我々は、機械翻訳手法を方言/標準アラビア語対に適用し、方言入力から標準アラビア語のテキストを自動的に生成しようと試みる。
論文 参考訳(メタデータ) (2023-01-09T15:52:40Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - TEET! Tunisian Dataset for Toxic Speech Detection [0.0]
チュニジア方言は、MSA、タマジット、イタリア語、フランス語など、他の多くの言語と組み合わせられている。
リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。
本稿では,約10kのコメントからなる注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2021-10-11T14:00:08Z) - Machine Translation into Low-resource Language Varieties [36.03635206661724]
本稿では,機械翻訳システムに迅速に適応して,標準対象言語に近いが異なる言語を生成できる汎用フレームワークを提案する。
我々は、ウクライナ語とベラルーシ語を生成するために、英語とロシア語のMTシステム、英語とノルウェーのボクマール語でNynorskを生成するシステム、および4つのアラビア方言を生成する英語とアラビア語のシステムを適用する実験を行った。
論文 参考訳(メタデータ) (2021-06-12T15:28:53Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。