論文の概要: TUNIZI: a Tunisian Arabizi sentiment analysis Dataset
- arxiv url: http://arxiv.org/abs/2004.14303v1
- Date: Wed, 29 Apr 2020 16:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:40:55.309329
- Title: TUNIZI: a Tunisian Arabizi sentiment analysis Dataset
- Title(参考訳): チュニジアのアラブ人感情分析データセットTUNIZI
- Authors: Chayma Fourati, Abir Messaoudi and Hatem Haddad
- Abstract要約: ソーシャルメディアでは、アラビア語の人々は自国の方言で表現する傾向があり、特にチュニジア人は「チュニジア・アラビジ」と呼ばれる非公式な方法を使用している。
本稿では、チュニジア・アラビジデータセットをソーシャルネットワークから収集し、分析研究のために前処理し、チュニジアの母語話者が手動で注釈付けした感情分析としてTUNIZIを紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: On social media, Arabic people tend to express themselves in their own local
dialects. More particularly, Tunisians use the informal way called "Tunisian
Arabizi". Analytical studies seek to explore and recognize online opinions
aiming to exploit them for planning and prediction purposes such as measuring
the customer satisfaction and establishing sales and marketing strategies.
However, analytical studies based on Deep Learning are data hungry. On the
other hand, African languages and dialects are considered low resource
languages. For instance, to the best of our knowledge, no annotated Tunisian
Arabizi dataset exists. In this paper, we introduce TUNIZI a sentiment analysis
Tunisian Arabizi Dataset, collected from social networks, preprocessed for
analytical studies and annotated manually by Tunisian native speakers.
- Abstract(参考訳): ソーシャルメディアでは、アラビア語の人々は自身の方言で表現する傾向がある。
特にチュニジア人は「チュニジア・アラビジ」と呼ばれる非公式な方法を使っている。
分析研究は、顧客満足度の測定や販売・マーケティング戦略の確立など、計画・予測目的に活用することを目的としたオンライン意見の探索と認識を目指している。
しかし、ディープラーニングに基づく分析研究はデータ不足である。
一方、アフリカの言語や方言は低資源言語と見なされている。
例えば、私たちの知る限りでは、注釈付きチュニジア・アラビジデータセットは存在しない。
本稿では,社会ネットワークから収集した感情分析チュニジア・アラビジデータセットであるチュニジについて,分析研究のための事前処理を行い,チュニジア語話者が手動で注釈を付ける手法を提案する。
関連論文リスト
- Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - Normalized Orthography for Tunisian Arabic [1.606071974243323]
チュニジア・アラビア(英語: Tunisian Arabic、ISO 693-3: aeb)は、チュニジア原産で、様々な歴史的影響を受け、アラビア語に由来する。
本研究は「チュニジア・アラビアのノーマライズド・オルソグラフィー(NOTA)」を紹介する。
論文 参考訳(メタデータ) (2024-02-20T11:52:29Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文 参考訳(メタデータ) (2022-07-11T11:46:59Z) - TEET! Tunisian Dataset for Toxic Speech Detection [0.0]
チュニジア方言は、MSA、タマジット、イタリア語、フランス語など、他の多くの言語と組み合わせられている。
リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。
本稿では,約10kのコメントからなる注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2021-10-11T14:00:08Z) - Learning Word Representations for Tunisian Sentiment Analysis [0.0]
ソーシャルメディア上のチュニジア人は、ラテン文字(TUNIZI)を使用して地元の方言で表現する傾向がある
これにより、オンラインの意見を探求し、認識するプロセスに新たな課題が持ち上がる。
本稿では,ソーシャルメディア上で使用されるチュニジア方言の感情分析に注目した。
論文 参考訳(メタデータ) (2020-10-14T07:47:33Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。