論文の概要: WikiTermBase: An AI-Augmented Term Base to Standardize Arabic Translation on Wikipedia
- arxiv url: http://arxiv.org/abs/2505.20369v1
- Date: Mon, 26 May 2025 11:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:55:29.486605
- Title: WikiTermBase: An AI-Augmented Term Base to Standardize Arabic Translation on Wikipedia
- Title(参考訳): ウィキターベース:ウィキペディアでアラビア語翻訳を標準化するAI強化用語ベース
- Authors: Michel Bakni, Abbad Diraneyya, Wael Tellat,
- Abstract要約: この抽象化は、900K以上の用語で辞書データベースを構築するための体系的なアプローチを備えた、オープンソースのツールであるWikiTermBaseを紹介している。
このツールはアラビア語のウィキペディアで英語とフランス語の翻訳語を標準化することに成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Term bases are recognized as one of the most effective components of translation software in time saving and consistency. In spite of the many recent advances in natural language processing (NLP) and large language models (LLMs), major translation platforms have yet to take advantage of these tools to improve their term bases and support scalable content for underrepresented languages, which often struggle with localizing technical terminology. Language academies in the Arab World, for example, have struggled since the 1940s to unify the way new scientific terms enter the Arabic language at scale. This abstract introduces an open source tool, WikiTermBase, with a systematic approach for building a lexicographical database with over 900K terms, which were collected and mapped from a multitude of sources on a semantic and morphological basis. The tool was successfully implemented on Arabic Wikipedia to standardize translated English and French terms.
- Abstract(参考訳): 用語ベースは、時間節約と一貫性において翻訳ソフトウェアの最も効果的なコンポーネントの1つとして認識されている。
自然言語処理(NLP)や大規模言語モデル(LLM)の最近の進歩にもかかわらず、主要な翻訳プラットフォームは、これらのツールをまだ活用していない。
例えば、アラブ世界の言語アカデミーは1940年代から、新しい科学用語が大規模にアラビア語に入る方法を統合するために苦労してきた。
この要約では、900K以上の用語で辞書データベースを構築するための体系的なアプローチとして、WikiTermBaseというオープンソースのツールを紹介している。
このツールはアラビア語のウィキペディアで英語とフランス語の翻訳語を標準化することに成功した。
関連論文リスト
- Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。
幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。
本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文 参考訳(メタデータ) (2025-04-30T09:56:36Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - AtteSTNet -- An attention and subword tokenization based approach for code-switched text hate speech detection [0.8287206589886882]
ソーシャルメディアで使われる言語は、しばしば英語と地域の母語の組み合わせである。
インドではヒンディー語が主に使われ、しばしば英語で表記され、ヒンズー語(ヒンズー語+英語)が流行する。
論文 参考訳(メタデータ) (2021-12-10T20:01:44Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。