論文の概要: Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition
- arxiv url: http://arxiv.org/abs/2404.00565v1
- Date: Sun, 31 Mar 2024 05:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:00:38.366868
- Title: Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition
- Title(参考訳): テンプレートベース翻訳検出のためのコーパスメタデータの活用:エジプト・アラビア語版ウィキペディアの探索的研究
- Authors: Saied Alshahrani, Hesham Haroon, Ali Elfilali, Mariama Njie, Jeanna Matthews,
- Abstract要約: アラビア語ウィキペディアの3つの版、アラビア語ウィキペディア(AR)、エジプトアラビア語ウィキペディア(ARZ)、モロッコアラビア語ウィキペディア(ary)を研究している。
エジプト・アラビア語ウィキペディアで発生したテンプレート翻訳の問題を,これらのテンプレート翻訳記事とその特徴を識別することによって緩和することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikipedia articles (content pages) are commonly used corpora in Natural Language Processing (NLP) research, especially in low-resource languages other than English. Yet, a few research studies have studied the three Arabic Wikipedia editions, Arabic Wikipedia (AR), Egyptian Arabic Wikipedia (ARZ), and Moroccan Arabic Wikipedia (ARY), and documented issues in the Egyptian Arabic Wikipedia edition regarding the massive automatic creation of its articles using template-based translation from English to Arabic without human involvement, overwhelming the Egyptian Arabic Wikipedia with articles that do not only have low-quality content but also with articles that do not represent the Egyptian people, their culture, and their dialect. In this paper, we aim to mitigate the problem of template translation that occurred in the Egyptian Arabic Wikipedia by identifying these template-translated articles and their characteristics through exploratory analysis and building automatic detection systems. We first explore the content of the three Arabic Wikipedia editions in terms of density, quality, and human contributions and utilize the resulting insights to build multivariate machine learning classifiers leveraging articles' metadata to detect the template-translated articles automatically. We then publicly deploy and host the best-performing classifier, XGBoost, as an online application called EGYPTIAN WIKIPEDIA SCANNER and release the extracted, filtered, and labeled datasets to the research community to benefit from our datasets and the online, web-based detection system.
- Abstract(参考訳): Wikipediaの記事(コンテンツページ)は、自然言語処理(NLP)研究、特に英語以外の低リソース言語でよく使われるコーパスである。
しかし、アラビア・ウィキペディア(AR)、エジプト・アラビア・ウィキペディア(ARZ)、モロッコ・アラビア・ウィキペディア(ary)の3つのアラビア・ウィキペディアについて研究し、エジプト・アラビア・ウィキペディアでは、人間の関与なしに英語からアラビア語へのテンプレートベースの翻訳を用いて、エジプト・アラビア・ウィキペディアの記事を大量に自動生成することに関する問題を文書化している。
本稿では,エジプト・アラビア・ウィキペディアで発生したテンプレート翻訳問題とその特徴を探索分析と自動検出システムの構築により緩和することを目的とする。
まず3つのアラビア語版ウィキペディア版の内容について、密度、品質、人的貢献の観点から検討し、結果の洞察を利用して、記事のメタデータを利用した多変量機械学習分類器を構築し、テンプレート変換された記事を自動的に検出する。
そして、ベストパフォーマンスの分類器であるXGBoostを、EGYPTIAN WIKIPEDIA SCANNERと呼ばれるオンラインアプリケーションとして公開してホストし、抽出、フィルタリング、ラベル付けされたデータセットを研究コミュニティにリリースし、データセットとオンラインWebベースの検出システムを活用する。
関連論文リスト
- ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs [1.6381055567716192]
本稿では,機械翻訳(MT)と自動音声認識(ASR)システムの複雑さについて検討する。
我々は、コード変更されたエジプトのアラビア語を英語またはエジプトのアラビア語に翻訳することに重点を置いている。
本稿では,LLama や Gemma などの大規模言語モデルを用いて,これらのシステムの開発に使用される手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T07:19:51Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z) - Machine Generation and Detection of Arabic Manipulated and Fake News [8.014703200985084]
アラビア語で編集された(そしておそらく偽の)ニュースを自動的に生成する新しい手法を提案する。
提案手法は単純で,オンラインで豊富な真の物語と,音声タグ(POS)の一部にのみ依存する。
我々は、機械操作がテキストの正確性に与える影響に光を当てる人間のアノテーション研究を行う。
我々は、操作されたアラビアニュースを検知し、最先端の結果を得るための最初のモデルを開発する。
論文 参考訳(メタデータ) (2020-11-05T20:50:22Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。