Fugu-MT 論文翻訳(概要): Automatic Romanization of Arabic Bibliographic Records

論文の概要: Automatic Romanization of Arabic Bibliographic Records

arxiv url: http://arxiv.org/abs/2103.07199v1
Date: Fri, 12 Mar 2021 10:46:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-15 19:55:51.350730
Title: Automatic Romanization of Arabic Bibliographic Records
Title（参考訳）: アラビア語書誌記録の自動ロマン化
Authors: Eryani Fadhl and Habash Nizar
Abstract要約: 本稿では,未記述のアラビア語項目の自動ローマ字化に関する最初の報告結果を示す。この複雑な作業はアラビア音韻学、形態学、さらには意味論のモデリングを必要とする。私達の最もよいシステムは盲目のテストセットの89.3%の厳密な単語のロマン化に達します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: International library standards require cataloguers to tediously input Romanization of their catalogue records for the benefit of library users without specific language expertise. In this paper, we present the first reported results on the task of automatic Romanization of undiacritized Arabic bibliographic entries. This complex task requires the modeling of Arabic phonology, morphology, and even semantics. We collected a 2.5M word corpus of parallel Arabic and Romanized bibliographic entries, and benchmarked a number of models that vary in terms of complexity and resource dependence. Our best system reaches 89.3% exact word Romanization on a blind test set. We make our data and code publicly available.
Abstract（参考訳）: 国際図書館標準では、特定の言語知識を持たない図書館利用者の利益のために、カタログレコードのローマ字化を退屈に行う必要がある。本稿では,未診断アラビア語書誌エントリの自動ロマン化に関する最初の報告結果について述べる。この複雑な作業はアラビア音韻学、形態学、さらには意味論のモデリングを必要とする。並列アラビア語とローマ字の書誌エントリからなる2.5Mワードコーパスを収集し、複雑さとリソース依存の点で異なるモデルをベンチマークした。私達の最もよいシステムは盲目のテストセットの89.3%の厳密な単語のロマン化に達します。データとコードを公開しています。

関連論文リスト

MURAD: A Large-Scale Multi-Domain Unified Reverse Arabic Dictionary Dataset [4.621023604328769]
muraD (Multi- domain Unified Reverse Arabic Dictionary) は96,243の単語定義ペアを持つオープン語彙データセットである。このデータセットは言語学、イスラーム研究、数学、物理学、心理学、工学の用語をカバーしている。計算言語学と語彙学の研究をサポートする。
論文参考訳（メタデータ） (2026-01-29T10:28:01Z)
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文参考訳（メタデータ） (2025-04-30T09:56:36Z)
Dialectal and Low-Resource Machine Translation for Aromanian [44.99833362998488]
本稿では,英語,ルーマニア語,ルーマニア語をサポートするニューラルマシン翻訳システムの構築プロセスについて述べる。主な貢献は、79,000の文対からなるルーマニアとルーマニアの最も広範な平行コーパスの作成である。そこで本研究では,テキストマイニングと自動評価のための言語に依存しない文埋め込みモデルを含む補助ツール群を提案する。
論文参考訳（メタデータ） (2024-10-23T10:00:23Z)
A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文参考訳（メタデータ） (2024-07-21T12:14:45Z)
Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文参考訳（メタデータ） (2024-07-02T14:51:20Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文参考訳（メタデータ） (2024-03-26T16:37:54Z)
RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文参考訳（メタデータ） (2024-01-25T16:11:41Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Huruf: An Application for Arabic Handwritten Character Recognition Using Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文参考訳（メタデータ） (2022-12-16T17:39:32Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。 AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文参考訳（メタデータ） (2020-06-20T14:25:06Z)
A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。 635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文参考訳（メタデータ） (2020-05-28T13:03:51Z)
A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。 CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2020-05-06T04:46:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。