論文の概要: TArC: Tunisian Arabish Corpus First complete release
- arxiv url: http://arxiv.org/abs/2207.04796v1
- Date: Mon, 11 Jul 2022 11:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 19:53:38.300744
- Title: TArC: Tunisian Arabish Corpus First complete release
- Title(参考訳): TArC: チュニジアのアラブ系コーパスの最初の完成版
- Authors: Elisa Gugliotta (1, 2, 3), Marco Dinarelli (1) ((1) Universit\'e
Grenoble Alpes, Laboratoires: LIG - Getalp Group (2) LIDILEM, (3) Sapienza
University of Rome)
- Abstract要約: 我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper we present the final result of a project on Tunisian Arabic
encoded in Arabizi, the Latin-based writing system for digital conversations.
The project led to the creation of two integrated and independent resources: a
corpus and a NLP tool created to annotate the former with various levels of
linguistic information: word classification, transliteration, tokenization,
POS-tagging, lemmatization. We discuss our choices in terms of computational
and linguistic methodology and the strategies adopted to improve our results.
We report on the experiments performed in order to outline our research path.
Finally, we explain why we believe in the potential of these resources for both
computational and linguistic researches. Keywords: Tunisian Arabizi, Annotated
Corpus, Neural Network Architecture
- Abstract(参考訳): 本稿では,デジタル会話のためのラテン文字記述システムであるarabiziで符号化されたチュニジアアラビア語に関するプロジェクトの最終結果について述べる。
このプロジェクトは、コーパスと、単語の分類、翻訳、トークン化、posタグ、補間といった言語情報の様々なレベルをアノテートするために作られたnlpツールという、2つの統合的で独立したリソースの作成につながった。
我々は,計算手法と言語方法論の観点で選択し,その結果を改善するための戦略について議論する。
研究の経緯を概説するために実施した実験について報告する。
最後に,計算と言語の研究においてこれらの資源の可能性を信じている理由について述べる。
キーワード:チュニジアアラビジ、注釈付きコーパス、ニューラルネットワークアーキテクチャ
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Creating a morphological and syntactic tagged corpus for the Uzbek
language [0.0]
ウズベク語の構文的および形態学的タグ付けコーパスを作成するための新しい音声部分(POS)と構文的タグセットを開発する。
開発したアノテーションツールとソフトウェアに基づいて,タグ付きコーパス生成の第1段階の経験結果を共有する。
論文 参考訳(メタデータ) (2022-10-27T07:44:12Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。