論文の概要: AlignAR: Generative Sentence Alignment for Arabic-English Parallel Corpora of Legal and Literary Texts
- arxiv url: http://arxiv.org/abs/2512.21842v1
- Date: Fri, 26 Dec 2025 03:10:43 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:04:32.202778
- Title: AlignAR: Generative Sentence Alignment for Arabic-English Parallel Corpora of Legal and Literary Texts
- Title(参考訳): AlignAR: アラビア語と英語のテキストのパラレルコーパスのための生成文アライメント
- Authors: Baorong Huang, Ali Asiri,
- Abstract要約: 既存のデータセットは主に単純な1対1のマッピングで構成されている。
本稿では、AlignAR、生成文アライメント方法、および複雑な法文と文文からなるアラビア語と英語のデータセットについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: High-quality parallel corpora are essential for Machine Translation (MT) research and translation teaching. However, Arabic-English resources remain scarce and existing datasets mainly consist of simple one-to-one mappings. In this paper, we present AlignAR, a generative sentence alignment method, and a new Arabic-English dataset comprising complex legal and literary texts. Our evaluation demonstrates that "Easy" datasets lack the discriminatory power to fully assess alignment methods. By reducing one-to-one mappings in our "Hard" subset, we exposed the limitations of traditional alignment methods. In contrast, LLM-based approaches demonstrated superior robustness, achieving an overall F1-score of 85.5%, a 9% improvement over previous methods. Our datasets and codes are open-sourced at https://github.com/XXX.
- Abstract(参考訳): 機械翻訳(MT)研究と翻訳教育には高品質な並列コーパスが不可欠である。
しかし、アラビア語と英語の資源は乏しく、既存のデータセットは主に単純な1対1のマッピングで構成されている。
本稿では、AlignAR、生成文アライメント方法、および複雑な法文と文文からなるアラビア語と英語の新しいデータセットについて述べる。
評価の結果,「簡単な」データセットにはアライメント手法を完全に評価する識別能力がないことがわかった。
Hard"サブセットの1対1マッピングを減らすことで、従来のアライメントメソッドの制限を明らかにしました。
対照的に、LCMベースのアプローチはより優れた堅牢性を示し、F1スコア全体の85.5%が達成され、従来の手法よりも9%改善された。
データセットとコードはhttps://github.com/XXX.comでオープンソース化されています。
関連論文リスト
- Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - Aligning Large Language Models to Low-Resource Languages through LLM-Based Selective Translation: A Systematic Study [3.9680588541743718]
選択的翻訳は、翻訳不可能な内容と文構造を保持しながら、テキストの翻訳可能な部分のみを翻訳する技法である。
実験では、低リソースのIndic言語Hindiに着目し、Google Cloud Translation(GCP)とLlama-3.1-405Bで生成された翻訳を比較した。
論文 参考訳(メタデータ) (2025-07-18T18:21:52Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。