Fugu-MT 論文翻訳(概要): OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal Conversations on Online Social Media

論文の概要: OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal Conversations on Online Social Media

arxiv url: http://arxiv.org/abs/2309.12137v1
Date: Thu, 21 Sep 2023 14:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 14:49:28.358569
Title: OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal Conversations on Online Social Media
Title（参考訳）: OSN-MDAD:オンラインソーシャルメディア上でのアラビア語多言語会話のための機械翻訳データセット
Authors: Fatimah Alzamzami, Abdulmotaleb El Saddik
Abstract要約: 本稿では,英語のつぶやきを4つのアラビア方言に文脈的に翻訳することで構築した,オンラインソーシャルネットワークに基づく多言語アラビア語データセットを提案する。その結果,我々のデータセットを用いてトレーニングしたニューラルMTモデルの優れた性能を示した。
参考スコア（独自算出の注目度）: 5.2957928879391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While resources for English language are fairly sufficient to understand content on social media, similar resources in Arabic are still immature. The main reason that the resources in Arabic are insufficient is that Arabic has many dialects in addition to the standard version (MSA). Arabs do not use MSA in their daily communications; rather, they use dialectal versions. Unfortunately, social users transfer this phenomenon into their use of social media platforms, which in turn has raised an urgent need for building suitable AI models for language-dependent applications. Existing machine translation (MT) systems designed for MSA fail to work well with Arabic dialects. In light of this, it is necessary to adapt to the informal nature of communication on social networks by developing MT systems that can effectively handle the various dialects of Arabic. Unlike for MSA that shows advanced progress in MT systems, little effort has been exerted to utilize Arabic dialects for MT systems. While few attempts have been made to build translation datasets for dialectal Arabic, they are domain dependent and are not OSN cultural-language friendly. In this work, we attempt to alleviate these limitations by proposing an online social network-based multidialect Arabic dataset that is crafted by contextually translating English tweets into four Arabic dialects: Gulf, Yemeni, Iraqi, and Levantine. To perform the translation, we followed our proposed guideline framework for content translation, which could be universally applicable for translation between foreign languages and local dialects. We validated the authenticity of our proposed dataset by developing neural MT models for four Arabic dialects. Our results have shown a superior performance of our NMT models trained using our dataset. We believe that our dataset can reliably serve as an Arabic multidialectal translation dataset for informal MT tasks.
Abstract（参考訳）: 英語のリソースはソーシャルメディア上のコンテンツを理解するのに十分だが、アラビア語のリソースは未熟である。アラビア語の資源が不足している主な理由は、標準語(MSA)に加えて多くの方言があるからである。アラブ人は毎日のコミュニケーションにMSAを使用しず、弁証法を使用している。残念ながら、ソーシャルユーザーはこの現象をソーシャルメディアプラットフォームの利用に移し、言語依存のアプリケーションに適切なaiモデルを構築することを緊急に要求している。 MSA用に設計された既存の機械翻訳(MT)システムはアラビア方言とうまく機能しない。これを踏まえ、様々なアラビア語の方言を効果的に扱えるMTシステムを開発することにより、ソーシャルネットワーク上の非公式なコミュニケーションに適応する必要がある。 MTシステムの進歩を示すMSAとは異なり、MTシステムにアラビア方言を利用する努力はほとんど行われていない。方言アラビア語の翻訳データセットを構築する試みはほとんど行われていないが、ドメインに依存しており、OSNの文化的言語に親しみやすいものではない。本研究では,英語のツイートを4つのアラビア方言(ガルフ語,イエメン語,イラク語,レバント語)に文脈的に翻訳することで構築された,オンラインソーシャルネットワークベースの多言語アラビア語データセットを提案することによって,これらの制限を緩和しようとする。翻訳を行うには,外国語と地方方言間の翻訳に普遍的に適用可能な,コンテンツ翻訳のためのガイドラインフレームワークを踏襲した。 4つのアラビア方言のニューラルMTモデルを用いて,提案したデータセットの信頼性を検証した。我々のデータセットを用いてトレーニングしたNMTモデルの優れた性能を示した。我々のデータセットは、非公式なMTタスクのためのアラビア多言語翻訳データセットとして確実に機能できると信じている。

関連論文リスト

Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation [1.817669530501506]
アラビア語の方言は、自然言語処理 (NLP) 研究において、長い間あまり表現されていない。 LLM(Large Language Models)のようなこの分野の最近の進歩は、このギャップに対処するための有望な道を提供する。本稿では,AMIYA共有タスクへの提案であるAladdin-FTIについて述べる。
論文参考訳（メタデータ） (2026-02-18T09:15:20Z)
ADAB: Arabic Dataset for Automated Politeness Benchmarking -- A Large-Scale Resource for Computational Sociopragmatics [0.6323908398583084]
4つのオンラインプラットフォームから収集された新たな注釈付きアラビア語データセットであるADAB(アラビア語ポリテネスデータセット)を紹介する。このデータセットはアラビア語の伝統とプラグマティック理論に基づいて注釈付けされ、3つのクラス(丁寧、不規則、中性)に分類された。 16の丁寧なカテゴリーにまたがる言語的特徴アノテーションを持つ10,000のサンプルを含み、アノテータ間の実質的な合意を達成している。
論文参考訳（メタデータ） (2026-02-14T19:58:53Z)
From FusHa to Folk: Exploring Cross-Lingual Transfer in Arabic Language Models [9.715150075665354]
アラビア語モデル (LM) は、現代標準アラビア語 (MSA) で事前訓練されており、その方言に移行することが期待されている。これは、その方言がMSAと類似性が異なるため、アラビア語のLMに制限を与える。本研究では,3つの自然言語処理タスクの探索と表現的類似性を用いて,アラビア語モデルの言語間移動について検討する。
論文参考訳（メタデータ） (2026-02-10T14:34:04Z)
SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System [0.995313069446686]
本稿では,現代標準アラビア語(MSA)とシリア方言のコミュニケーションギャップを橋渡しする双方向機械翻訳システムである textbfSHAMI-MT を紹介する。 MSA-to-Shami とShami-to-MSA の2つの特殊モデルを提案し、どちらも最先端の AraT5v2-base-1024 アーキテクチャ上に構築されている。 MSA-to-ShamiモデルではOPENAIモデルGPT-4.1で判定すると,5.0点中5.0点中1点の平均品質スコアが得られた。
論文参考訳（メタデータ） (2025-08-04T10:21:11Z)
Overcoming Data Scarcity in Multi-Dialectal Arabic ASR via Whisper Fine-Tuning [7.725659617972303]
5つの主要なアラビア語方言に対する微調整OpenAIのWhisperの効果について検討する。少量のMSA微調整データにより,より小さなモデルに対して大幅な改善が得られた。方言プーリングされたモデルは、方言固有のモデルと同等に機能する。
論文参考訳（メタデータ） (2025-06-03T08:41:49Z)
Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? [0.4751886527142778]
アラビジはラテン文字と数字を含むアラビア語のハイブリッド形である。機械翻訳には形式的な構造が欠如しているため、大きな課題がある。本研究は、アラビジ語を現代標準アラビア語と英語の両方に翻訳する際のモデルの性能について検討する。
論文参考訳（メタデータ） (2025-02-28T11:37:52Z)
AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。 AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。 AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文参考訳（メタデータ） (2025-01-31T18:58:20Z)
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。 ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文参考訳（メタデータ） (2024-07-29T09:45:34Z)
ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-22T05:35:17Z)
AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。 AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文参考訳（メタデータ） (2024-07-18T02:13:50Z)
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs [1.6381055567716192]
本稿では,機械翻訳(MT)と自動音声認識(ASR)システムの複雑さについて検討する。我々は、コード変更されたエジプトのアラビア語を英語またはエジプトのアラビア語に翻訳することに重点を置いている。本稿では,LLama や Gemma などの大規模言語モデルを用いて,これらのシステムの開発に使用される手法を提案する。
論文参考訳（メタデータ） (2024-06-26T07:19:51Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
Content-Localization based Neural Machine Translation for Informal Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文参考訳（メタデータ） (2023-12-12T01:42:41Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Neural Machine Translation for the Indigenous Languages of the Americas: An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文参考訳（メタデータ） (2023-06-11T23:27:47Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
The Effect of Normalization for Bi-directional Amharic-English Neural Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文参考訳（メタデータ） (2022-10-27T07:18:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。