論文の概要: Towards Terminology Management Automation for Arabic
- arxiv url: http://arxiv.org/abs/2503.19211v1
- Date: Mon, 24 Mar 2025 23:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:15.031511
- Title: Towards Terminology Management Automation for Arabic
- Title(参考訳): アラビア語における用語管理の自動化に向けて
- Authors: Mahdi Nasser, Laura Sayyah, Fadi A. Zaraket,
- Abstract要約: 本稿ではアラビア語の用語管理を自動化するための方法と支援ツールを提案する。
このツールは、フィールド固有のテキストから、外国語のパラレルな用語マッチング用語のリストをアラビア語に抽出する。
これはアラビア語の学術書において、一貫した翻訳と用語の使用を改善するために用いられるため、重要な意味を持つ。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents a method and supporting tools for automation of terminology management for Arabic. The tools extract lists of parallel terminology matching terms in foreign languages to their Arabic counterparts from field specific texts. This has significant implications as it can be used to improve consistent translation and use of terms in specialized Arabic academic books, and provides automated aid for enhancing cross lingual text processing. This automation of terminology management aims to reduce processing time, and ensure use of consistent and correct terminology. The extraction takes advantage of naturally occurring term translations. It considers several candidate phrases of varying lengths that co-occur next to the foreign terms. Then it computes several similarity metrics, including lexicographic, phonetic, morphological, and semantic ones to decide the problem. We experiment with heuristic, machine learning, and ML with post processing approaches. This paper reports on a novel curated dataset for the task, an existing expert reviewed industry parallel corpora, and on the performance of the three approaches. The best approach achieved 94.9% precision and 92.4% recall.
- Abstract(参考訳): 本稿ではアラビア語の用語管理を自動化するための方法と支援ツールを提案する。
このツールは、フィールド固有のテキストから、外国語のパラレルな用語マッチング用語のリストをアラビア語に抽出する。
これはアラビア語の学術書において、一貫した翻訳と用語の使用を改善するために使用することができ、言語間のテキスト処理を強化するための自動支援を提供するため、重要な意味を持つ。
この用語管理の自動化は、処理時間を短縮し、一貫性のある正しい用語の使用を保証することを目的としている。
この抽出は自然発生の項翻訳を利用する。
外国語の隣り合う様々な長さの候補句について考察する。
その後、語彙、音声学、形態学、意味論など、いくつかの類似度メトリクスを計算して問題を決定する。
我々は、ヒューリスティック、機械学習、MLをポスト処理アプローチで実験する。
本報告では,この課題に対する新たなキュレートされたデータセット,既存の専門家による並列コーパス,および3つのアプローチの性能について報告する。
最良のアプローチは94.9%の精度と92.4%のリコールを達成した。
関連論文リスト
- Efficient Terminology Integration for LLM-based Translation in Specialized Domains [0.0]
特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
論文 参考訳(メタデータ) (2024-10-21T07:01:25Z) - Issue Report Validation in an Industrial Context [1.993607565985189]
我々は、トルコ語で書かれた銀行部門で、ランダムに選択された1200の発行報告に取り組んでいる。
手動でこれらのレポートに妥当性をラベル付けし、それらが無効であることを示す関連パターンを抽出する。
提案する特徴抽出器を用いて,機械学習による課題報告の妥当性の予測を行い,0.77F1スコアを実行する。
論文 参考訳(メタデータ) (2023-11-29T14:24:13Z) - NSOAMT -- New Search Only Approach to Machine Translation [0.0]
機械翻訳に対する新しい検索のみのアプローチ」が採用され、他の技術の遅さと不正確さに対処した。
この考え方は、特定の意味的意味を組み合わす単語のインクリメンタルな集合をインデクシングすることによって、ネイティブ言語レコードと翻訳言語との対応プロセスを作成することができるソリューションを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-19T11:12:21Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Facilitating Terminology Translation with Target Lemma Annotations [4.492630871726495]
対象言語の補題でランダムに選択されたソース言語単語を注釈するソースサイドデータ拡張法を用いて機械翻訳システムを訓練する。
形態学的に複雑なバルト語とウラル語への用語翻訳の実験は、ベースラインシステムよりも最大7つのBLEU点の改善を示している。
人的評価の結果は、ラトビア語への翻訳の際の項翻訳精度において、以前の研究よりも47.7%の絶対的な改善を示している。
論文 参考訳(メタデータ) (2021-01-25T12:07:20Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Generative latent neural models for automatic word alignment [0.0]
変分オートエンコーダは、最近、自然言語処理において、言語生成タスクに有用な教師なしの潜在表現を学習するために、様々な自然言語処理で使用されている。
本稿では,単語アライメント作業のためのこれらのモデルについて検討し,バニラ変分オートエンコーダのいくつかの進化について提案・評価する。
これらの手法は、Giza++と2つの言語ペアに対して強力なニューラルネットワークアライメントシステムに比較して、競争力のある結果が得られることを実証する。
論文 参考訳(メタデータ) (2020-09-28T07:54:09Z) - Learning Coupled Policies for Simultaneous Machine Translation using
Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。
6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文 参考訳(メタデータ) (2020-02-11T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。