論文の概要: TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus
- arxiv url: http://arxiv.org/abs/2003.09520v2
- Date: Tue, 24 Mar 2020 12:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 21:59:02.193376
- Title: TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus
- Title(参考訳): TArC:チュニジアのアラブ人コーパスをインクリメンタルかつ半自動収集
- Authors: Elisa Gugliotta, Marco Dinarelli
- Abstract要約: 本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
- 参考スコア(独自算出の注目度): 3.8580784887142774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This article describes the constitution process of the first
morpho-syntactically annotated Tunisian Arabish Corpus (TArC). Arabish, also
known as Arabizi, is a spontaneous coding of Arabic dialects in Latin
characters and arithmographs (numbers used as letters). This code-system was
developed by Arabic-speaking users of social media in order to facilitate the
writing in the Computer-Mediated Communication (CMC) and text messaging
informal frameworks. There is variety in the realization of Arabish amongst
dialects, and each Arabish code-system is under-resourced, in the same way as
most of the Arabic dialects. In the last few years, the focus on Arabic
dialects in the NLP field has considerably increased. Taking this into
consideration, TArC will be a useful support for different types of analyses,
computational and linguistic, as well as for NLP tools training. In this
article we will describe preliminary work on the TArC semi-automatic
construction process and some of the first analyses we developed on TArC. In
addition, in order to provide a complete overview of the challenges faced
during the building process, we will present the main Tunisian dialect
characteristics and their encoding in Tunisian Arabish.
- Abstract(参考訳): 本論では, チュニジア・アラブ人コーパス (TArC) の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字やアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
このコードシステムは、CMC(Computer-Mediated Communication)やテキストメッセージングの非公式フレームワークの記述を容易にするために、ソーシャルメディアのアラビア語話者によって開発された。
アラビア語の方言間の認識には様々な種類があり、アラビア語のコード体系はアラビア語の方言のほとんどと同様、未資源である。
ここ数年、NLP分野におけるアラビア語方言への注目は著しく高まっている。
これを考慮すると、TArCは異なるタイプの分析、計算、言語、およびNLPツールトレーニングのための有用なサポートとなる。
本稿では、TArCの半自動構築プロセスに関する予備研究と、TArC上で開発された最初の分析について述べる。
また、建設過程で直面する課題の完全な概要を述べるため、チュニジア方言の特徴と、チュニジア・アラブ語におけるそれらのエンコーディングを紹介する。
関連論文リスト
- Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文 参考訳(メタデータ) (2022-07-11T11:46:59Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。