論文の概要: Normalized Orthography for Tunisian Arabic
- arxiv url: http://arxiv.org/abs/2402.12940v2
- Date: Tue, 11 Jun 2024 20:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 22:44:06.910975
- Title: Normalized Orthography for Tunisian Arabic
- Title(参考訳): チュニジア・アラビアの正規化オルソグラフィー
- Authors: Houcemeddine Turki, Kawthar Ellouze, Hager Ben Ammar, Mohamed Ali Hadj Taieb, Imed Adel, Mohamed Ben Aouicha, Pier Luigi Farri, Abderrezak Bennour,
- Abstract要約: チュニジア・アラビア(英語: Tunisian Arabic、ISO 693-3: aeb)は、チュニジア原産で、様々な歴史的影響を受け、アラビア語に由来する。
本研究は「チュニジア・アラビアのノーマライズド・オルソグラフィー(NOTA)」を紹介する。
- 参考スコア(独自算出の注目度): 1.606071974243323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tunisian Arabic (ISO 693-3: aeb) isa distinct variety native to Tunisia, derived from Arabic and enriched by various historical influences. This research introduces the "Normalized Orthography for Tunisian Arabic" (NOTA), an adaptation of CODA* guidelines for transcribing Tunisian Arabic using Arabic script. The aim is to enhance language resource development by ensuring user-friendliness and consistency. The updated standard addresses challenges in accurately representing Tunisian phonology and morphology, correcting issues from transcriptions based on Modern Standard Arabic.
- Abstract(参考訳): チュニジア・アラビア(英語: Tunisian Arabic、ISO 693-3: aeb)は、チュニジア原産で、様々な歴史的影響を受け、アラビア語に由来する。
本研究は、チュニジア・アラビア語をアラビア語で翻訳するためのCODA*ガイドラインの適応である「チュニジア・アラビア語版Normalized Orthography for Tunisian Arabic」(NOTA)を紹介する。
ユーザフレンドリさと一貫性を確保することで、言語リソースの開発を強化することを目的としている。
改訂された標準は、チュニジアの音韻学と形態学を正確に表現する上での課題に対処し、現代標準アラビア語に基づく転写の問題を修正した。
関連論文リスト
- Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Leveraging Data Collection and Unsupervised Learning for Code-switched
Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。
まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。
第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。
第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-20T13:56:27Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Multi-Task Sequence Prediction For Tunisian Arabizi Multi-Level
Annotation [0.0]
このシステムは、アラビジ入力から始まるカスケードのすべてのアノテーションレベルを予測するために学習される。
我々は、チュニジアのアラビジコーパスに注釈を付けるためにこのシステムをどのように利用したかを示し、その後手作業で修正した。
本システムはFairseqフレームワーク向けに開発されており,他のシーケンス予測問題に対して高速かつ容易に利用することができる。
論文 参考訳(メタデータ) (2020-11-10T15:19:01Z) - TUNIZI: a Tunisian Arabizi sentiment analysis Dataset [0.0]
ソーシャルメディアでは、アラビア語の人々は自国の方言で表現する傾向があり、特にチュニジア人は「チュニジア・アラビジ」と呼ばれる非公式な方法を使用している。
本稿では、チュニジア・アラビジデータセットをソーシャルネットワークから収集し、分析研究のために前処理し、チュニジアの母語話者が手動で注釈付けした感情分析としてTUNIZIを紹介した。
論文 参考訳(メタデータ) (2020-04-29T16:24:02Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。