Fugu-MT 論文翻訳(概要): Normalized Orthography for Tunisian Arabic

論文の概要: Normalized Orthography for Tunisian Arabic

arxiv url: http://arxiv.org/abs/2402.12940v1
Date: Tue, 20 Feb 2024 11:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 15:31:39.055511
Title: Normalized Orthography for Tunisian Arabic
Title（参考訳）: チュニジアアラビア語の正規化正書法
Authors: Houcemeddine Turki, Kawthar Ellouze, Hager Ben Ammar, Mohamed Ali Hadj Taieb, Imed Adel, Mohamed Ben Aouicha, Pier Luigi Farri, Abderrezak Bennour
Abstract要約: チュニジア・アラビア語 (ISO 693-3: aeb) はチュニジア原産の言語品種である。本研究は「チュニジア・アラビアのノーマライズド・オルソグラフィー(NOTA)」を紹介する。
参考スコア（独自算出の注目度）: 1.675245825272646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tunisian Arabic (ISO 693-3: aeb) is a distinct linguistic variety native to Tunisia, initially stemmed from the Arabic language and enriched by a multitude of historical influences. This research introduces the "Normalized Orthography for Tunisian Arabic" (NOTA), an adaptation of CODA* guidelines tailored for transcribing Tunisian Arabic using the Arabic script for language resource development purposes, with an emphasis on user-friendliness and consistency. The updated standard seeks to address challenges related to accurately representing the unique characteristics of Tunisian phonology and morphology. This will be achieved by rectifying problems arising from transcriptions based on resemblances to Modern Standard Arabic.
Abstract（参考訳）: チュニジア・アラビア(英語: Tunisian Arabic、ISO 693-3: aeb)は、チュニジア原産の言語品種である。本研究は、言語資源開発のためにアラビア文字を用いてチュニジアアラビア語を翻訳するためのCODA*ガイドラインの適応である「チュニジア・アラビアの正規化オルソグラフィー(Normalized Orthography for Tunisian Arabic)」を紹介する。改訂された標準は、チュニジアの音韻学と形態学の独特な特徴を正確に表現することに関連する課題に対処しようとするものである。これは、現代標準アラビア語に類似した書き起こしによる問題を修正することで達成される。

関連論文リスト

Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文参考訳（メタデータ） (2024-07-13T21:09:38Z)
Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-07-03T11:30:03Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文参考訳（メタデータ） (2023-09-20T13:56:27Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。自然言語処理(NLP)の状況に注目する。ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文参考訳（メタデータ） (2022-10-21T21:59:44Z)
New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文参考訳（メタデータ） (2021-06-29T10:42:53Z)
Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文参考訳（メタデータ） (2021-01-22T12:04:08Z)
Multi-Task Sequence Prediction For Tunisian Arabizi Multi-Level Annotation [0.0]
このシステムは、アラビジ入力から始まるカスケードのすべてのアノテーションレベルを予測するために学習される。我々は、チュニジアのアラビジコーパスに注釈を付けるためにこのシステムをどのように利用したかを示し、その後手作業で修正した。本システムはFairseqフレームワーク向けに開発されており,他のシーケンス予測問題に対して高速かつ容易に利用することができる。
論文参考訳（メタデータ） (2020-11-10T15:19:01Z)
TUNIZI: a Tunisian Arabizi sentiment analysis Dataset [0.0]
ソーシャルメディアでは、アラビア語の人々は自国の方言で表現する傾向があり、特にチュニジア人は「チュニジア・アラビジ」と呼ばれる非公式な方法を使用している。本稿では、チュニジア・アラビジデータセットをソーシャルネットワークから収集し、分析研究のために前処理し、チュニジアの母語話者が手動で注釈付けした感情分析としてTUNIZIを紹介した。
論文参考訳（メタデータ） (2020-04-29T16:24:02Z)
TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文参考訳（メタデータ） (2020-03-20T22:29:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。