論文の概要: Normalized Orthography for Tunisian Arabic
- arxiv url: http://arxiv.org/abs/2402.12940v1
- Date: Tue, 20 Feb 2024 11:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:31:39.055511
- Title: Normalized Orthography for Tunisian Arabic
- Title(参考訳): チュニジアアラビア語の正規化正書法
- Authors: Houcemeddine Turki, Kawthar Ellouze, Hager Ben Ammar, Mohamed Ali Hadj
Taieb, Imed Adel, Mohamed Ben Aouicha, Pier Luigi Farri, Abderrezak Bennour
- Abstract要約: チュニジア・アラビア語 (ISO 693-3: aeb) はチュニジア原産の言語品種である。
本研究は「チュニジア・アラビアのノーマライズド・オルソグラフィー(NOTA)」を紹介する。
- 参考スコア(独自算出の注目度): 1.675245825272646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tunisian Arabic (ISO 693-3: aeb) is a distinct linguistic variety native to
Tunisia, initially stemmed from the Arabic language and enriched by a multitude
of historical influences. This research introduces the "Normalized Orthography
for Tunisian Arabic" (NOTA), an adaptation of CODA* guidelines tailored for
transcribing Tunisian Arabic using the Arabic script for language resource
development purposes, with an emphasis on user-friendliness and consistency.
The updated standard seeks to address challenges related to accurately
representing the unique characteristics of Tunisian phonology and morphology.
This will be achieved by rectifying problems arising from transcriptions based
on resemblances to Modern Standard Arabic.
- Abstract(参考訳): チュニジア・アラビア(英語: Tunisian Arabic、ISO 693-3: aeb)は、チュニジア原産の言語品種である。
本研究は、言語資源開発のためにアラビア文字を用いてチュニジアアラビア語を翻訳するためのCODA*ガイドラインの適応である「チュニジア・アラビアの正規化オルソグラフィー(Normalized Orthography for Tunisian Arabic)」を紹介する。
改訂された標準は、チュニジアの音韻学と形態学の独特な特徴を正確に表現することに関連する課題に対処しようとするものである。
これは、現代標準アラビア語に類似した書き起こしによる問題を修正することで達成される。
関連論文リスト
- Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Leveraging Data Collection and Unsupervised Learning for Code-switched
Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。
まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。
第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。
第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-20T13:56:27Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Multi-Task Sequence Prediction For Tunisian Arabizi Multi-Level
Annotation [0.0]
このシステムは、アラビジ入力から始まるカスケードのすべてのアノテーションレベルを予測するために学習される。
我々は、チュニジアのアラビジコーパスに注釈を付けるためにこのシステムをどのように利用したかを示し、その後手作業で修正した。
本システムはFairseqフレームワーク向けに開発されており,他のシーケンス予測問題に対して高速かつ容易に利用することができる。
論文 参考訳(メタデータ) (2020-11-10T15:19:01Z) - TUNIZI: a Tunisian Arabizi sentiment analysis Dataset [0.0]
ソーシャルメディアでは、アラビア語の人々は自国の方言で表現する傾向があり、特にチュニジア人は「チュニジア・アラビジ」と呼ばれる非公式な方法を使用している。
本稿では、チュニジア・アラビジデータセットをソーシャルネットワークから収集し、分析研究のために前処理し、チュニジアの母語話者が手動で注釈付けした感情分析としてTUNIZIを紹介した。
論文 参考訳(メタデータ) (2020-04-29T16:24:02Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。