論文の概要: Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic
- arxiv url: http://arxiv.org/abs/2312.06926v1
- Date: Tue, 12 Dec 2023 01:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:51:29.760291
- Title: Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic
- Title(参考訳): Informal Dialectal Arabic: Spanish/ French to Levantine/Gulf Arabic における内容ローカライゼーションに基づくニューラルマシン翻訳
- Authors: Fatimah Alzamzami, Abdulmotaleb El Saddik
- Abstract要約: 本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
- 参考スコア(独自算出の注目度): 5.2957928879391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resources in high-resource languages have not been efficiently exploited in
low-resource languages to solve language-dependent research problems. Spanish
and French are considered high resource languages in which an adequate level of
data resources for informal online social behavior modeling, is observed.
However, a machine translation system to access those data resources and
transfer their context and tone to a low-resource language like dialectal
Arabic, does not exist. In response, we propose a framework that localizes
contents of high-resource languages to a low-resource language/dialects by
utilizing AI power. To the best of our knowledge, we are the first work to
provide a parallel translation dataset from/to informal Spanish and French
to/from informal Arabic dialects. Using this, we aim to enrich the
under-resource-status dialectal Arabic and fast-track the research of diverse
online social behaviors within and across smart cities in different
geo-regions. The experimental results have illustrated the capability of our
proposed solution in exploiting the resources between high and low resource
languages and dialects. Not only this, but it has also been proven that
ignoring dialects within the same language could lead to misleading analysis of
online social behavior.
- Abstract(参考訳): 高リソース言語の資源は、言語に依存した研究問題を解決するために、低リソース言語で効率的に利用されていない。
スペイン語とフランス語は、非公式なオンライン社会行動モデリングのための適切なレベルのデータ資源が観察される高資源言語と考えられている。
しかし、これらのデータリソースにアクセスし、文脈やトーンを方言アラビア語のような低リソース言語に転送する機械翻訳システムは存在しない。
そこで本研究では,高リソース言語の内容を低リソース言語/ダイアレクタにローカライズするフレームワークを提案する。
我々の知る限りでは、スペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の試みである。
これを利用することで、アラビア語の非資源的方言と、異なる地域におけるスマートシティ内および地域間における多様なオンライン社会行動の研究を高速に追跡することを目指している。
実験の結果,高・低資源言語と方言間の資源利用における提案手法の有用性が示された。
これだけでなく、同じ言語で方言を無視することは、オンライン社会行動の誤解を招く可能性があることが証明されている。
関連論文リスト
- Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study [1.6819960041696331]
本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。
我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。
ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
論文 参考訳(メタデータ) (2024-04-12T06:16:26Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf [5.2957928879391]
本稿では,高リソース言語における資源の内容を,低リソースアラビア語方言にローカライズすることを提案する。
我々は、コンテンツローカライゼーションに基づくニューラルマシン翻訳を用いて、レバンタインとガルフの2つの低リソースアラビア語方言に対する感情と憎悪の分類器を開発する。
以上の結果から,同一言語における方言の特異性を考慮し,方言的側面を無視することが,誤解を招く可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T15:37:33Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。