論文の概要: Ara-HOPE: Human-Centric Post-Editing Evaluation for Dialectal Arabic to Modern Standard Arabic Translation
- arxiv url: http://arxiv.org/abs/2512.21787v1
- Date: Thu, 25 Dec 2025 21:29:59 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:28.742194
- Title: Ara-HOPE: Human-Centric Post-Editing Evaluation for Dialectal Arabic to Modern Standard Arabic Translation
- Title(参考訳): Ara-HOPE: 辞書アラビア語から現代標準アラビア語翻訳のための人間中心のポスト編集評価
- Authors: Abdullah Alabdullah, Lifeng Han, Chenghua Lin,
- Abstract要約: 方言アラビア語から現代標準アラビア語への翻訳(DA-MSA)は機械翻訳(MT)において難しい課題である
既存の評価指標と汎用評価フレームワークは、方言固有のMTエラーを捉えるのに苦労している。
本稿では,これらの課題に体系的に対処するために設計された,人間中心のポスト編集評価フレームワークであるAra-HOPEを紹介する。
- 参考スコア(独自算出の注目度): 22.369277951685234
- License:
- Abstract: Dialectal Arabic to Modern Standard Arabic (DA-MSA) translation is a challenging task in Machine Translation (MT) due to significant lexical, syntactic, and semantic divergences between Arabic dialects and MSA. Existing automatic evaluation metrics and general-purpose human evaluation frameworks struggle to capture dialect-specific MT errors, hindering progress in translation assessment. This paper introduces Ara-HOPE, a human-centric post-editing evaluation framework designed to systematically address these challenges. The framework includes a five-category error taxonomy and a decision-tree annotation protocol. Through comparative evaluation of three MT systems (Arabic-centric Jais, general-purpose GPT-3.5, and baseline NLLB-200), Ara-HOPE effectively highlights systematic performance differences between these systems. The results show that dialect-specific terminology and semantic preservation remain the most persistent challenges in DA-MSA translation. Ara-HOPE establishes a new framework for evaluating Dialectal Arabic MT quality and provides actionable guidance for improving dialect-aware MT systems.
- Abstract(参考訳): 方言アラビア語から現代標準アラビア語への翻訳(DA-MSA)は、アラビア語方言とMSAの間で大きな語彙的、構文的、意味的な違いがあるため、機械翻訳(MT)において難しい課題である。
既存の自動評価指標と汎用的人的評価フレームワークは、方言固有のMTエラーを捉えるのに苦労し、翻訳評価の進歩を妨げる。
本稿では,これらの課題に体系的に対処するために設計された,人間中心のポスト編集評価フレームワークであるAra-HOPEを紹介する。
このフレームワークは5つのカテゴリのエラー分類と決定ツリーアノテーションプロトコルを含んでいる。
3つのMTシステム(アラビア語中心のJais、汎用GPT-3.5、ベースラインのNLLB-200)の比較評価により、Ara-HOPEはこれらのシステム間の系統的な性能差を効果的に強調する。
その結果, DA-MSA翻訳において, 方言固有の用語と意味保存が最も難易度の高い課題であることが示唆された。
Ara-HOPEは、方言 アラビア語 MT の品質を評価するための新しい枠組みを確立し、方言対応 MT システムを改善するための実用的なガイダンスを提供する。
関連論文リスト
- DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System [0.995313069446686]
本稿では,現代標準アラビア語(MSA)とシリア方言のコミュニケーションギャップを橋渡しする双方向機械翻訳システムである textbfSHAMI-MT を紹介する。
MSA-to-Shami とShami-to-MSA の2つの特殊モデルを提案し、どちらも最先端の AraT5v2-base-1024 アーキテクチャ上に構築されている。
MSA-to-ShamiモデルではOPENAIモデルGPT-4.1で判定すると,5.0点中5.0点中1点の平均品質スコアが得られた。
論文 参考訳(メタデータ) (2025-08-04T10:21:11Z) - Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation [0.9393150323167235]
まず、既存のアラビア評価データセットを分析し、言語的正確性、文化的アライメント、方法論的厳密性において重要な課題を特定した。
アラビア語のDepth Miniデータセット(ADMD)は10のドメインにまたがる490の課題の集合である。
以上の結果から,文化的な理解と専門知識を必要とする分野において,様々な領域におけるモデル性能の顕著な変動が明らかとなった。
論文 参考訳(メタデータ) (2025-06-02T17:39:50Z) - TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten
Arabic Varieties [18.73290429469502]
BardとChatGPTを10種類のアラビア語の機械翻訳能力について評価した。
我々の評価では、古典アラビア語(CA)、現代標準アラビア語(MSA)、およびいくつかの国レベルの方言の変種を網羅している。
しかし、CAとMSAでは、命令調整されたLLMがGoogle Translateのような商用システムに遅れを取っている。
論文 参考訳(メタデータ) (2023-08-06T08:29:16Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。