論文の概要: MASRAD: Arabic Terminology Management Corpora with Semi-Automatic Construction
- arxiv url: http://arxiv.org/abs/2503.19211v2
- Date: Tue, 07 Oct 2025 13:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:19.990313
- Title: MASRAD: Arabic Terminology Management Corpora with Semi-Automatic Construction
- Title(参考訳): MASRAD:半自動構築によるアラビア・テルミノロジー・マネジメント・コーパス
- Authors: Mahdi Nasser, Laura Sayyah, Fadi A. Zaraket,
- Abstract要約: 本稿では,アラビア語用語管理のための用語データセットであるMASRADについて述べる。
MASRADのエントリは$(f,a)$対の外国人(アラビア語以外の)用語$f$であり、専門的、学術的、専門的な書籍に現れる。
MASRADは学術翻訳やアラビア語の専門文書における項整合性の向上を支援する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents MASRAD, a terminology dataset for Arabic terminology management, and a method with supporting tools for its semi-automatic construction. The entries in MASRAD are $(f,a)$ pairs of foreign (non-Arabic) terms $f$, appearing in specialized, academic and field-specific books next to their Arabic $a$ counterparts. MASRAD-Ex systematically extracts these pairs as a first step to construct MASRAD. MASRAD helps improving term consistency in academic translations and specialized Arabic documents, and automating cross-lingual text processing. MASRAD-Ex leverages translated terms organically occurring in Arabic books, and considers several candidate pairs for each term phrase. The candidate Arabic terms occur next to the foreign terms, and vary in length. MASRAD-Ex computes lexicographic, phonetic, morphological, and semantic similarity metrics for each candidate pair, and uses heuristic, machine learning, and machine learning with post-processing approaches to decide on the best candidate. This paper presents MASRAD after thorough expert review and makes it available to the interested research community. The best performing MASRAD-Ex approach achieved 90.5% precision and 92.4% recall.
- Abstract(参考訳): 本稿では,アラビア語用語管理のための用語データセットMASRADと,その半自動構築支援ツールを提案する。
MASRADのエントリは$(f,a)$対の外国人(アラビア語以外の)用語$f$であり、アラビア語の$a$の隣の専門的、学術的、分野固有の書籍に現れる。
MASRAD-ExはこれらのペアをMASRADを構築する最初のステップとして体系的に抽出する。
MASRADは学術翻訳やアラビア語の専門文書における項整合性の向上を支援し、言語間テキスト処理を自動化する。
MASRAD-Exはアラビア語の本で有機的に現れる翻訳語を活用し、各語句にいくつかの候補対を考える。
アラビア語の候補語は外国語に次いで出現し、長さは様々である。
MASRAD-Exは、各候補ペアの語彙、音声、形態、意味的類似度を計算し、ヒューリスティック、機械学習、機械学習と後処理アプローチを用いて最適な候補を決定する。
本報告では,MASRADの詳細な専門家レビューを行い,興味ある研究コミュニティに公開する。
最高のMASRAD-Exアプローチは90.5%の精度と92.4%のリコールを達成した。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Efficient Terminology Integration for LLM-based Translation in Specialized Domains [0.0]
特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
論文 参考訳(メタデータ) (2024-10-21T07:01:25Z) - LEVOS: Leveraging Vocabulary Overlap with Sanskrit to Generate Technical Lexicons in Indian Languages [39.08623113730563]
技術的用語の言語情報翻訳のためのサンスクリットに基づくセグメントの新規な利用法を提案する。
提案手法では,意味のあるサブワード単位の識別に文字レベルセグメンテーションを用いる。
我々はサンスクリットから派生したセグメントを用いた技術用語翻訳のための2つの実験的な設定における一貫した改善を観察する。
論文 参考訳(メタデータ) (2024-07-08T18:50:13Z) - Issue Report Validation in an Industrial Context [1.993607565985189]
我々は、トルコ語で書かれた銀行部門で、ランダムに選択された1200の発行報告に取り組んでいる。
手動でこれらのレポートに妥当性をラベル付けし、それらが無効であることを示す関連パターンを抽出する。
提案する特徴抽出器を用いて,機械学習による課題報告の妥当性の予測を行い,0.77F1スコアを実行する。
論文 参考訳(メタデータ) (2023-11-29T14:24:13Z) - NSOAMT -- New Search Only Approach to Machine Translation [0.0]
機械翻訳に対する新しい検索のみのアプローチ」が採用され、他の技術の遅さと不正確さに対処した。
この考え方は、特定の意味的意味を組み合わす単語のインクリメンタルな集合をインデクシングすることによって、ネイティブ言語レコードと翻訳言語との対応プロセスを作成することができるソリューションを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-19T11:12:21Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Facilitating Terminology Translation with Target Lemma Annotations [4.492630871726495]
対象言語の補題でランダムに選択されたソース言語単語を注釈するソースサイドデータ拡張法を用いて機械翻訳システムを訓練する。
形態学的に複雑なバルト語とウラル語への用語翻訳の実験は、ベースラインシステムよりも最大7つのBLEU点の改善を示している。
人的評価の結果は、ラトビア語への翻訳の際の項翻訳精度において、以前の研究よりも47.7%の絶対的な改善を示している。
論文 参考訳(メタデータ) (2021-01-25T12:07:20Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Generative latent neural models for automatic word alignment [0.0]
変分オートエンコーダは、最近、自然言語処理において、言語生成タスクに有用な教師なしの潜在表現を学習するために、様々な自然言語処理で使用されている。
本稿では,単語アライメント作業のためのこれらのモデルについて検討し,バニラ変分オートエンコーダのいくつかの進化について提案・評価する。
これらの手法は、Giza++と2つの言語ペアに対して強力なニューラルネットワークアライメントシステムに比較して、競争力のある結果が得られることを実証する。
論文 参考訳(メタデータ) (2020-09-28T07:54:09Z) - Learning Coupled Policies for Simultaneous Machine Translation using
Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。
6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文 参考訳(メタデータ) (2020-02-11T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。