Fugu-MT 論文翻訳(概要): Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization

論文の概要: Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization

arxiv url: http://arxiv.org/abs/2406.05760v1
Date: Sun, 9 Jun 2024 12:29:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 18:07:23.272974
Title: Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization
Title（参考訳）: 野生におけるアラビア語のダイアクリティカル : ダイアクリティカル化をめざして
Authors: Salman Elgamal, Ossama Obeid, Tameem Kabbani, Go Inoue, Nizar Habash,
Abstract要約: アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
参考スコア（独自算出の注目度）: 9.191117990275385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The widespread absence of diacritical marks in Arabic text poses a significant challenge for Arabic natural language processing (NLP). This paper explores instances of naturally occurring diacritics, referred to as "diacritics in the wild," to unveil patterns and latent information across six diverse genres: news articles, novels, children's books, poetry, political documents, and ChatGPT outputs. We present a new annotated dataset that maps real-world partially diacritized words to their maximal full diacritization in context. Additionally, we propose extensions to the analyze-and-disambiguate approach in Arabic NLP to leverage these diacritics, resulting in notable improvements. Our contributions encompass a thorough analysis, valuable datasets, and an extended diacritization algorithm. We release our code and datasets as open source.
Abstract（参考訳）: アラビア語のテキストにダイアクリティカルマークが広く存在しないことは、アラビア語の自然言語処理(NLP)にとって重要な課題となっている。本稿では,自然発生のダイアクリティカルティクスを「野生のダイアクリティカルティクス」と呼び,ニュース記事,小説,児童書,詩,政治文書,チャットGPTアウトプットといった6つのジャンルにまたがるパターンと潜伏した情報を明らかにする。そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。さらに、アラビアNLPにおける分析・曖昧化アプローチの拡張により、これらのダイアクリティカルティクスを活用することにより、顕著な改善がもたらされる。コントリビューションには、詳細な分析、貴重なデータセット、拡張ダイアクリタイズアルゴリズムが含まれています。コードとデータセットをオープンソースとしてリリースしています。

関連論文リスト

Dhati+: Fine-tuned Large Language Models for Arabic Subjectivity Evaluation [0.0]
その重要性にもかかわらず、アラビア語は資金不足に直面している。大きな注釈付きデータセットの不足は、アラビア語の主観分析のための正確なツールの開発を妨げている。近年のディープラーニングとトランスフォーマーの進歩は、英語とフランス語のテキスト分類に非常に効果的であることが証明されている。
論文参考訳（メタデータ） (2025-08-27T15:20:12Z)
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T10:18:28Z)
Proper Noun Diacritization for Arabic Wikipedia: A Benchmark Dataset [11.204164618338863]
英語のウィキペディアと同等の用語で、様々な起源のアラビア語の固有名詞を手作業で分類したデータセットを導入する。 GPT-4oは、アラビア語と英語の未分類形態を考慮し、完全発音を回復する作業についてベンチマークを行った。我々の結果は、タスクの難しさと改善されたモデルとリソースの必要性の両方を浮き彫りにした。
論文参考訳（メタデータ） (2025-05-05T14:03:22Z)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文参考訳（メタデータ） (2024-02-28T15:15:39Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。 NArabizi Treebankの豊富なバージョンを紹介します。
論文参考訳（メタデータ） (2023-06-26T17:27:31Z)
Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain [5.916745177895035]
本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて述べる。データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
論文参考訳（メタデータ） (2023-06-22T16:50:40Z)
Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文参考訳（メタデータ） (2023-06-06T10:18:17Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Towards Responsible Natural Language Annotation for the Varieties of Arabic [12.526184907781731]
我々は多言語・多言語言語のための責任あるデータセット作成のためのプレイブックを提示する。この研究は、ソーシャルメディアコンテンツに関するアラビア語の注釈の研究によって知らされる。
論文参考訳（メタデータ） (2022-03-17T20:23:27Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)
A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文参考訳（メタデータ） (2020-06-07T01:20:40Z)
Improving Yor\`ub\'a Diacritic Restoration [3.301896537513352]
ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
論文参考訳（メタデータ） (2020-03-23T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。