論文の概要: Automatic Romanization of Arabic Bibliographic Records
- arxiv url: http://arxiv.org/abs/2103.07199v1
- Date: Fri, 12 Mar 2021 10:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 19:55:51.350730
- Title: Automatic Romanization of Arabic Bibliographic Records
- Title(参考訳): アラビア語書誌記録の自動ロマン化
- Authors: Eryani Fadhl and Habash Nizar
- Abstract要約: 本稿では,未記述のアラビア語項目の自動ローマ字化に関する最初の報告結果を示す。
この複雑な作業はアラビア音韻学、形態学、さらには意味論のモデリングを必要とする。
私達の最もよいシステムは盲目のテスト セットの89.3%の厳密な単語のロマン化に達します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: International library standards require cataloguers to tediously input
Romanization of their catalogue records for the benefit of library users
without specific language expertise. In this paper, we present the first
reported results on the task of automatic Romanization of undiacritized Arabic
bibliographic entries. This complex task requires the modeling of Arabic
phonology, morphology, and even semantics. We collected a 2.5M word corpus of
parallel Arabic and Romanized bibliographic entries, and benchmarked a number
of models that vary in terms of complexity and resource dependence. Our best
system reaches 89.3% exact word Romanization on a blind test set. We make our
data and code publicly available.
- Abstract(参考訳): 国際図書館標準では、特定の言語知識を持たない図書館利用者の利益のために、カタログレコードのローマ字化を退屈に行う必要がある。
本稿では,未診断アラビア語書誌エントリの自動ロマン化に関する最初の報告結果について述べる。
この複雑な作業はアラビア音韻学、形態学、さらには意味論のモデリングを必要とする。
並列アラビア語とローマ字の書誌エントリからなる2.5Mワードコーパスを収集し、複雑さとリソース依存の点で異なるモデルをベンチマークした。
私達の最もよいシステムは盲目のテスト セットの89.3%の厳密な単語のロマン化に達します。
データとコードを公開しています。
関連論文リスト
- RomanSetu: Efficiently unlocking multilingual capabilities of Large
Language Models models via Romanization [18.345223839163367]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - New Results for the Text Recognition of Arabic Maghrib{\=i} Manuscripts
-- Managing an Under-resourced Script [0.0]
アラビア文字Maghrib=iスクリプト専用のHTRモデル開発および微調整のための新しいモードオペラーディを導入・評価する。
いくつかの最先端のHTRモデルの比較は、アラビア語に特化した単語ベースのニューラルアプローチの関連性を示している。
その結果、アラビア文字処理のための新しい視点が開かれ、より一般的には、貧弱な言語処理のためのものである。
論文 参考訳(メタデータ) (2022-11-29T12:21:41Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。