論文の概要: Automatic Standardization of Arabic Dialects for Machine Translation
- arxiv url: http://arxiv.org/abs/2301.03447v1
- Date: Mon, 9 Jan 2023 15:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:41:16.439875
- Title: Automatic Standardization of Arabic Dialects for Machine Translation
- Title(参考訳): 機械翻訳のためのアラビア方言の自動標準化
- Authors: Abidrabbo Alnassan (CEL, ILCEA4, UJML3 Langues)
- Abstract要約: アラビア語からの機械翻訳はほとんどの場合、原語として標準語または現代アラビア語を用いる。
我々は、機械翻訳手法を方言/標準アラビア語対に適用し、方言入力から標準アラビア語のテキストを自動的に生成しようと試みる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Based on an annotated multimedia corpus, television series Mar{\=a}y{\=a}
2013, we dig into the question of ''automatic standardization'' of Arabic
dialects for machine translation. Here we distinguish between rule-based
machine translation and statistical machine translation. Machine translation
from Arabic most of the time takes standard or modern Arabic as the source
language and produces quite satisfactory translations thanks to the
availability of the translation memories necessary for training the models. The
case is different for the translation of Arabic dialects. The productions are
much less efficient. In our research we try to apply machine translation
methods to a dialect/standard (or modern) Arabic pair to automatically produce
a standard Arabic text from a dialect input, a process we call ''automatic
standardization''. we opt here for the application of ''statistical models''
because ''automatic standardization'' based on rules is more hard with the lack
of ''diglossic'' dictionaries on the one hand and the difficulty of creating
linguistic rules for each dialect on the other. Carrying out this research
could then lead to combining ''automatic standardization'' software and
automatic translation software so that we take the output of the first software
and introduce it as input into the second one to obtain at the end a quality
machine translation. This approach may also have educational applications such
as the development of applications to help understand different Arabic dialects
by transforming dialectal texts into standard Arabic.
- Abstract(参考訳): テレビシリーズ『mar{\=a}y{\=a} 2013』の注釈付きマルチメディアコーパスに基づき、機械翻訳のためのアラビア語方言の「自動標準化」の問題について考察する。
ここではルールベース機械翻訳と統計機械翻訳を区別する。
アラビア語からの機械翻訳は、多くの場合、標準または現代アラビア語をソース言語として用い、モデルの訓練に必要な翻訳記憶が利用できるため、非常に満足のいく翻訳を生成する。
このケースはアラビア方言の翻訳において異なる。
生産効率ははるかに低い。
本研究では,方言入力から標準アラビア語テキストを自動的に生成するために,方言/標準アラビア語ペア(あるいは現代アラビア語ペア)に機械翻訳手法を適用し,その過程を「自動標準化」と呼ぶ。
規則に基づく「自動標準化」は、一方に「diglossic」辞書の欠如と、他方に方言ごとに言語規則を作成することが困難であることから、ここでは「統計モデル」の適用を選択した。
この研究をまとめると、'自動標準化'ソフトウェアと自動翻訳ソフトウェアを組み合わせることで、第1ソフトウェアの出力を第2のソフトウェアに入力として導入し、最後に高品質な機械翻訳を得ることが可能になる。
このアプローチはまた、方言のテキストを標準アラビア語に変換することによって、異なるアラビア語の方言を理解するためのアプリケーションの開発のような教育的応用も得る。
関連論文リスト
- Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal
Conversations on Online Social Media [5.2957928879391]
本稿では,英語のつぶやきを4つのアラビア方言に文脈的に翻訳することで構築した,オンラインソーシャルネットワークに基づく多言語アラビア語データセットを提案する。
その結果,我々のデータセットを用いてトレーニングしたニューラルMTモデルの優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-21T14:58:50Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - AraT5: Text-to-Text Transformers for Arabic Language Understanding and
Generation [6.021269454707625]
アラビア語生成のための新しいベンチマーク(ARGEN)を導入する。
アラビア語固有のテキスト・トゥ・テキスト・トランスフォーマーベースの3つのモデルを事前学習し、2つのベンチマークで評価する。
我々の新しいモデルはmT5よりも大幅に優れており、アラビア語の理解に基づいて現在最先端のアラビア語 BERT ベースのモデルである MARBERT よりも優れている。
論文 参考訳(メタデータ) (2021-08-31T02:02:10Z) - Using Machine Translation to Localize Task Oriented NLG Output [5.770385426429663]
本稿では、英語の出力に機械翻訳を適用することにより、これを行う。
要求される品質バーは完璧に近く、文の範囲は極めて狭く、機械翻訳訓練データとは大きく異なることが多い。
既存のアイデアに基づいて新しいものを追加することで、必要な品質バーに到達することができます。
論文 参考訳(メタデータ) (2021-07-09T15:56:45Z) - Investigating Code-Mixed Modern Standard Arabic-Egyptian to English
Machine Translation [6.021269454707625]
コード混在の現代標準アラビア語とエジプト・アラビア語(MSAEA)を英語に調査する。
我々は、(i)標準のエンドツーエンドシーケンス・ツー・シーケンス(S2S)変換器と(ii)事前訓練されたS2S言語モデル(LM)を用いて、異なる条件下でモデルを開発する。
我々は、スクラッチから訓練されたS2Sモデルと様々なアラビア方言のデータに基づいて微調整されたLMを用いて、MSA-EN並列データのみを用いて、合理的な性能を得ることができる。
論文 参考訳(メタデータ) (2021-05-28T03:38:35Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。