Fugu-MT 論文翻訳(概要): Context-Aware Dialectal Arabic Machine Translation with Interactive Region and Register Selection

論文の概要: Context-Aware Dialectal Arabic Machine Translation with Interactive Region and Register Selection

arxiv url: http://arxiv.org/abs/2604.06456v1
Date: Tue, 07 Apr 2026 20:54:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.237288
Title: Context-Aware Dialectal Arabic Machine Translation with Interactive Region and Register Selection
Title（参考訳）: 対話型領域とレジスタ選択を用いた文脈対応アラビア語機械翻訳
Authors: Afroza Nowshin, Prithweeraj Acharjee Porag, Haziq Jeelani, Fayeq Jeelani Syed,
Abstract要約: 現在のアラビア語の機械翻訳(MT)システムは、しばしば方言の多様性を考慮するのに苦労している。本稿では,地域・言語的変動を明示的にモデル化した方言アラビア語 MT の文脈認識フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current Machine Translation (MT) systems for Arabic often struggle to account for dialectal diversity, frequently homogenizing dialectal inputs into Modern Standard Arabic (MSA) and offering limited user control over the target vernacular. In this work, we propose a context-aware and steerable framework for dialectal Arabic MT that explicitly models regional and sociolinguistic variation. Our primary technical contribution is a Rule-Based Data Augmentation (RBDA) pipeline that expands a 3,000-sentence seed corpus into a balanced 57,000-sentence parallel dataset, covering eight regional varieties eg., Egyptian, Levantine, Gulf, etc. By fine-tuning an mT5-base model conditioned on lightweight metadata tags, our approach enables controllable generation across dialects and social registers in the translation output. Through a combination of automatic evaluation and qualitative analysis, we observe an apparent accuracy-fidelity trade-off: high-resource baselines such as NLLB (No Language Left Behind) achieve higher aggregate BLEU scores (13.75) by defaulting toward the MSA mean, while exhibiting limited dialectal specificity. In contrast, our model achieves lower BLEU scores (8.19) but produces outputs that align more closely with the intended regional varieties. Supporting qualitative evaluation, including an LLM-assisted cultural authenticity analysis, suggests improved dialectal alignment compared to baseline systems (4.80/5 vs. 1.0/5). These findings highlight the limitations of standard MT metrics for dialect-sensitive tasks and motivate the need for evaluation practices that better reflect linguistic diversity in Arabic MT.
Abstract（参考訳）: 現在のアラビア語の機械翻訳(MT)システムは、方言の多様性を考慮し、しばしば現代標準アラビア語(MSA)への方言入力を均質化し、ターゲットの動詞に対する限定的なユーザコントロールを提供する。本研究では,地域的・社会言語学的変動を明示的にモデル化した方言アラビア MT の文脈認識・聴取可能な枠組みを提案する。私たちの主な技術的貢献はルールベースデータ拡張(RBDA)パイプラインで、3,000文のシードコーパスをバランスの取れた57,000文の並列データセットに拡張します。エジプト、レバンタ、湾など。軽量メタデータタグをベースとしたmT5ベースモデルを微調整することにより,翻訳出力における方言や社会的レジスタ間の制御可能な生成を可能にする。 NLLB(No Language Left Behind)のような高リソースのベースラインは、MSA平均に向かってデフォルトにすることで、より高い集合BLEUスコア(13.75)を達成する。対照的に、我々のモデルは低いBLEUスコア(8.19)を達成できるが、意図された地域品種とより密に一致した出力を生成する。 LLMを用いた文化的信頼度分析を含む質的評価の支援は、ベースラインシステム(4.80/5 vs. 1.0/5)と比較して、方言のアライメントの改善を示唆している。これらの知見は、方言に敏感なタスクに対する標準MT指標の限界を強調し、アラビア語のMTの言語的多様性をよりよく反映する評価プラクティスの必要性を動機付けている。

関連論文リスト

State-of-the-Art Arabic Language Modeling with Sparse MoE Fine-Tuning and Chain-of-Thought Distillation [0.030957264235843676]
Arabic-DeepSeek-R1 はアプリケーション駆動のオープンソースアラビア LLM で、疎い MoE バックボーンを活用し、表現不足の言語におけるデジタルエクイティギャップに対処する。我々の4段階のCoT蒸留方式は、アラビア語固有の言語的検証と地域倫理規範を3億2200万トンの汚染制御されたアラビア語と英語の訓練混合物に統合します。
論文参考訳（メタデータ） (2026-04-07T19:58:26Z)
Benchmarking Bengali Dialectal Bias: A Multi-Stage Framework Integrating RAG-Based Translation and Human-Augmented RLAIF [0.3227658251731014]
大規模言語モデル(LLM)は、低リソース言語の方言に対する性能バイアスを頻繁に示している。ベンガル方言9方言を対象に,LLM質問応答における方言バイアスを評価するための2段階の枠組みを提案する。
論文参考訳（メタデータ） (2026-03-22T18:44:57Z)
Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics [69.2321983942375]
本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。本研究は,3つのELRL(Magahi,Bhojpuri,Chhattisgarhi)にまたがる幻覚,反復,原文複写,ダイアクリティック(textitmatra)の変化など,各指標が翻訳物にどう反応するかを検討する。最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。
論文参考訳（メタデータ） (2026-02-19T14:56:42Z)
Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。 JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文参考訳（メタデータ） (2026-02-04T17:02:22Z)
Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文参考訳（メタデータ） (2025-07-27T14:37:53Z)
LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文参考訳（メタデータ） (2025-05-18T07:24:13Z)
Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文参考訳（メタデータ） (2024-01-16T13:30:09Z)
When Does Translation Require Context? A Data-driven, Multilingual Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文参考訳（メタデータ） (2021-09-15T17:29:30Z)
Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文参考訳（メタデータ） (2020-11-26T21:09:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。